文字檔案輸入步驟

PDI發表於2008-06-03
從文字檔案中獲得資料,常見的文字檔案包括csv 、txt、檔案等。使用者要在該步驟指定檔名、檔案內容、錯誤處理方式、過濾器、欄位等專案。

引數說明:
[@more@]l 指定檔名的三種方式

1. 指定一個具體的檔名。
2. 指定一個正規表示式,來匹配一個目錄下的檔案。
3. 將其它步驟的執行結果作為檔名。

l 檔案內容設定
分隔符:指定欄位之間的分隔符號
文字限定符:指定一個字串左右的限定符號,有限定符的字串裡可以使用分隔符。有限定符的字串內部如果要使用限定符,要將限定符加倍。
轉義符:指定文字中的轉義符號,用來將其後的字元轉義。
頁首:指定頁首的行數,頁首行不作為資料行處理。
頁尾:指定頁尾的行數,頁尾行不作為資料行處理。
回捲:說明一個資料行是否被回捲為多行。

l 錯誤處理設定
忽略錯誤:是否忽略解析過程中產生的錯誤。
跳過錯誤行:是否跳過發生錯誤的行。如果不跳過,那麼發生錯誤的欄位值會被置為空。
記錄錯誤數的輸出欄位:指定一個輸出欄位用來記錄解析錯誤的欄位的個數。
記錄錯誤描述的輸出欄位:指定一個輸出欄位用來記錄發生錯誤的所有欄位的名字。
記錄錯誤欄位名的輸出欄位:指定一個輸出欄位用來記錄錯誤的描述資訊。
警告檔案目錄:當發生警告時,警告將儲存在這個指定的目錄下。
錯誤檔案目錄:當發生警告時,警告將儲存在這個指定的目錄下。
失敗行數檔案目錄:當讀取行失敗時,讀取失敗的行號將儲存在這個指定的目錄下。

l 過濾器
過濾器:用來過濾輸入行,符合過濾器條件的輸入行將被忽略掉。
過濾字串:用來去匹配輸入資料的字串(不支援正規表示式)
過濾開始位置:指定字串裡開始匹配的位置,負數或0表示從第一個字元開始匹配。
停止處理:當遇到了匹配的字串時,是否停止處理

l 欄位
設定欄位名稱和資料型別

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/14366449/viewspace-1005026/,如需轉載,請註明出處,否則將追究法律責任。

相關文章