多源異構資料來源融合怎麼做!一文解讀(1)

RestCloud谷云科技發表於2024-11-12

隨著數字化、網路化、智慧化的時代發展,企業所面臨的資料來源越來越廣泛和複雜,包括關係型資料庫、非關係型資料庫、API介面、感測器資料、社交媒體等。這些資料來源產生的資料具有不同的格式、結構和語義,這是多源異構資料來源的特點也是資料融合的巨大難點。

多源異構資料來源融合怎麼做!一文解讀(1)

一、什麼是多源異構資料來源

多源異構資料來源是指來自不同來源、不同格式、不同結構、不同語義描述的資料集合。這些資料來源可以是各種型別的資料,如關係型資料庫、非關係型資料庫、檔案系統、API介面、感測器資料、社交媒體等。這些資料來源具有不同的資料格式、資料型別和語義描述,因此需要進行特殊的技術處理和整合,才能實現資料的統一管理和分析。簡單來說,多源異構資料來源就是由多種不同型別、不同結構的資料來源組成的資料集合。

二、多源異構資料來源的種類

多源異構資料的種類繁多,特點各異。下面介紹一下多源異構資料的一些常見種類:

1. 資料庫資料

如 MySQL、PostgreSQL、Oracle 等,以表格形式儲存結構化資料。還有 MongoDB、Cassandra 等,以文件、鍵值對、列族或圖形形式儲存半結構化或非結構化資料。

多源異構資料來源融合怎麼做!一文解讀(1)

2. 檔案資料

如 CSV、TXT 這樣的文字檔案,通常儲存結構化或半結構化資料。層次結構的資料格式,適用於儲存和交換複雜資料的XML檔案。還有JSON 檔案這種輕量級的資料交換格式,常用於 Web 應用和 API。

多源異構資料來源融合怎麼做!一文解讀(1)

3. 多媒體資料

影像:JPEG、PNG 等格式的靜態影像資料,通常用於視覺識別和分析。

音訊:音訊檔案(如 MP3、WAV),可用於語音識別、音樂分析等。

影片:影片檔案(如 MP4、AVI),可用於影片監控、內容分析等。

多源異構資料來源融合怎麼做!一文解讀(1)

4. 社交媒體資料

社交網路:來自社交平臺的帖子、評論、點贊等資訊,具有非結構化特徵。

多源異構資料來源融合怎麼做!一文解讀(1)

5. 爬蟲資料

Web 資料:透過網路爬蟲技術收集的網站資料,通常是不規則、動態的網頁內容。

6. 感測器和物聯網資料

感測器資料:從 IoT 裝置收集的實時資料,包含多種格式,例如溫度、溼度等。

日誌資料:來自裝置、伺服器和應用程式的日誌檔案,通常用於監控和分析。

7. 企業業務資料

CRM 資料:客戶關係管理系統中的客戶資訊、銷售記錄等。

ERP 資料:企業資源規劃系統中的財務、庫存、供應鏈等資料。

8. 公開資料

開放資料集:政府機構、科研機構等釋出的公共資料集,通常為結構化或半結構化。

資料共享平臺的資料:一些平臺上共享的資料集,涵蓋各種領域。

9. 實時資料流

流式資料:實時傳輸的資料流,例如金融市場資料、線上交易資料等,具有高頻更新的特性。

三、多源異構資料來源融合

對於多源異構資料來源融合的處理通常涉及到資料清洗、轉換和整合等多個環節,以應對不同源頭資料的格式、結構、語義等方面的差異,最後將其同步到資料庫中。

多源異構資料來源融合怎麼做!一文解讀(1)

這些步驟看起來並不複雜,但由於多源異構資料在格式、結構、語義等方面的差異,導致處理起來相當麻煩。所以使用資料整合和ETL(Extract, Transform, Load)工具處理成了主流選擇。

四、使用ETLCloud進行多源資料融合

1.資料來源選擇

選擇需要同步的資料來源種類,這裡我們使用文字檔案,mysql資料表和api返回資料作為資料來源來演示。

多源異構資料來源融合怎麼做!一文解讀(1)

多源異構資料來源融合怎麼做!一文解讀(1)

2.資料轉換和同步

具體流程如下,使用文字檔案讀取元件,Restful API輸入和庫表輸入元件,完成資料來源讀取,使用多流union元件合併資料,閘道器元件控制分支的並行執行,資料清洗轉換元件對資料進行處理,最後透過庫表輸出同步到目標庫中。

多源異構資料來源融合怎麼做!一文解讀(1)

文字檔案讀取元件配置:

選擇要讀取的文字檔案

多源異構資料來源融合怎麼做!一文解讀(1)

選擇檔案內容的解析方式。

多源異構資料來源融合怎麼做!一文解讀(1)

多源異構資料來源融合怎麼做!一文解讀(1)

Restful API輸入元件配置:

這裡主要配置基本屬性和輸出欄位,其他配置可以根據自己的api要求處理。這裡沒有演示出來的其他配置均為預設配置。

基本配置:主要配置呼叫的api url以及返回的資料行所在欄位和資料格式。

多源異構資料來源融合怎麼做!一文解讀(1)

輸出欄位配置:選擇需要從api中輸出的欄位。

多源異構資料來源融合怎麼做!一文解讀(1)

庫表輸入元件配置:

基本屬性:

配置資料來源和需要讀取的表book

多源異構資料來源融合怎麼做!一文解讀(1)

Sql語句配置,從book表中讀取70001到80001之間的資料。

多源異構資料來源融合怎麼做!一文解讀(1)

輸入欄位配置:

多源異構資料來源融合怎麼做!一文解讀(1)

多流union合併元件配置:

基本屬性,選擇三個資料來源所在節點

多源異構資料來源融合怎麼做!一文解讀(1)

合併欄位:

多源異構資料來源融合怎麼做!一文解讀(1)

資料清洗轉換元件配置:

基本屬性:

多源異構資料來源融合怎麼做!一文解讀(1)

清洗規則:

選擇資料欄位id,透過繫結規則對資料進行清洗轉換。這對bookmoney,createtime欄位分辨繫結了金額轉換和時間轉換規則。

多源異構資料來源融合怎麼做!一文解讀(1)

過濾條件:

將bookmoney大於100的資料過濾出來,對這部分的資料進行清洗轉換,其他的資料不做處理,依舊輸出。

多源異構資料來源融合怎麼做!一文解讀(1)

庫表輸出元件配置:

選擇需要同步的目標表和表所在的資料來源

多源異構資料來源融合怎麼做!一文解讀(1)

選擇輸出方式,選擇合併後批次。

多源異構資料來源融合怎麼做!一文解讀(1)

3.流程執行結果

多源異構資料來源融合怎麼做!一文解讀(1)

結語

多源異構資料來源的融合是一個錯綜複雜的任務,需要系統性的方法和技術。而ETLCloud透過視覺化的,明晰的方式,簡化了資料清洗、整合、轉換和管理流程,有效實現多源異構資料的整合,為更深層次的資料分析和應用提供有力支援。是多源異構資料融合工具的不二選擇。

相關文章