隨著數字化、網路化、智慧化的時代發展,企業所面臨的資料來源越來越廣泛和複雜,包括關係型資料庫、非關係型資料庫、API介面、感測器資料、社交媒體等。這些資料來源產生的資料具有不同的格式、結構和語義,這是多源異構資料來源的特點也是資料融合的巨大難點。
一、什麼是多源異構資料來源
多源異構資料來源是指來自不同來源、不同格式、不同結構、不同語義描述的資料集合。這些資料來源可以是各種型別的資料,如關係型資料庫、非關係型資料庫、檔案系統、API介面、感測器資料、社交媒體等。這些資料來源具有不同的資料格式、資料型別和語義描述,因此需要進行特殊的技術處理和整合,才能實現資料的統一管理和分析。簡單來說,多源異構資料來源就是由多種不同型別、不同結構的資料來源組成的資料集合。
二、多源異構資料來源的種類
多源異構資料的種類繁多,特點各異。下面介紹一下多源異構資料的一些常見種類:
1. 資料庫資料
如 MySQL、PostgreSQL、Oracle 等,以表格形式儲存結構化資料。還有 MongoDB、Cassandra 等,以文件、鍵值對、列族或圖形形式儲存半結構化或非結構化資料。
2. 檔案資料
如 CSV、TXT 這樣的文字檔案,通常儲存結構化或半結構化資料。層次結構的資料格式,適用於儲存和交換複雜資料的XML檔案。還有JSON 檔案這種輕量級的資料交換格式,常用於 Web 應用和 API。
3. 多媒體資料
影像:JPEG、PNG 等格式的靜態影像資料,通常用於視覺識別和分析。
音訊:音訊檔案(如 MP3、WAV),可用於語音識別、音樂分析等。
影片:影片檔案(如 MP4、AVI),可用於影片監控、內容分析等。
4. 社交媒體資料
社交網路:來自社交平臺的帖子、評論、點贊等資訊,具有非結構化特徵。
5. 爬蟲資料
Web 資料:透過網路爬蟲技術收集的網站資料,通常是不規則、動態的網頁內容。
6. 感測器和物聯網資料
感測器資料:從 IoT 裝置收集的實時資料,包含多種格式,例如溫度、溼度等。
日誌資料:來自裝置、伺服器和應用程式的日誌檔案,通常用於監控和分析。
7. 企業業務資料
CRM 資料:客戶關係管理系統中的客戶資訊、銷售記錄等。
ERP 資料:企業資源規劃系統中的財務、庫存、供應鏈等資料。
8. 公開資料
開放資料集:政府機構、科研機構等釋出的公共資料集,通常為結構化或半結構化。
資料共享平臺的資料:一些平臺上共享的資料集,涵蓋各種領域。
9. 實時資料流
流式資料:實時傳輸的資料流,例如金融市場資料、線上交易資料等,具有高頻更新的特性。
三、多源異構資料來源融合
對於多源異構資料來源融合的處理通常涉及到資料清洗、轉換和整合等多個環節,以應對不同源頭資料的格式、結構、語義等方面的差異,最後將其同步到資料庫中。
這些步驟看起來並不複雜,但由於多源異構資料在格式、結構、語義等方面的差異,導致處理起來相當麻煩。所以使用資料整合和ETL(Extract, Transform, Load)工具處理成了主流選擇。
四、使用ETLCloud進行多源資料融合
1.資料來源選擇
選擇需要同步的資料來源種類,這裡我們使用文字檔案,mysql資料表和api返回資料作為資料來源來演示。
2.資料轉換和同步
具體流程如下,使用文字檔案讀取元件,Restful API輸入和庫表輸入元件,完成資料來源讀取,使用多流union元件合併資料,閘道器元件控制分支的並行執行,資料清洗轉換元件對資料進行處理,最後透過庫表輸出同步到目標庫中。
文字檔案讀取元件配置:
選擇要讀取的文字檔案
選擇檔案內容的解析方式。
Restful API輸入元件配置:
這裡主要配置基本屬性和輸出欄位,其他配置可以根據自己的api要求處理。這裡沒有演示出來的其他配置均為預設配置。
基本配置:主要配置呼叫的api url以及返回的資料行所在欄位和資料格式。
輸出欄位配置:選擇需要從api中輸出的欄位。
庫表輸入元件配置:
基本屬性:
配置資料來源和需要讀取的表book
Sql語句配置,從book表中讀取70001到80001之間的資料。
輸入欄位配置:
多流union合併元件配置:
基本屬性,選擇三個資料來源所在節點
合併欄位:
資料清洗轉換元件配置:
基本屬性:
清洗規則:
選擇資料欄位id,透過繫結規則對資料進行清洗轉換。這對bookmoney,createtime欄位分辨繫結了金額轉換和時間轉換規則。
過濾條件:
將bookmoney大於100的資料過濾出來,對這部分的資料進行清洗轉換,其他的資料不做處理,依舊輸出。
庫表輸出元件配置:
選擇需要同步的目標表和表所在的資料來源
選擇輸出方式,選擇合併後批次。
3.流程執行結果
結語
多源異構資料來源的融合是一個錯綜複雜的任務,需要系統性的方法和技術。而ETLCloud透過視覺化的,明晰的方式,簡化了資料清洗、整合、轉換和管理流程,有效實現多源異構資料的整合,為更深層次的資料分析和應用提供有力支援。是多源異構資料融合工具的不二選擇。