從四個典型場景看如何將資料整合“用到實處”

ETLCloud整合資料社群發表於2023-11-28

一、資料整合概念

資料整合是指將來自不同資料來源的資料整合到一個統一的資料儲存中,並確保這些資料能夠互相關聯、交換和共享的過程。在資料整合的過程中,資料通常需要經過清洗、轉換和統一格式化等步驟,以確保資料的一致性、完整性和可用性。

如何將資料整合落到實處呢?一般要考慮幾個關鍵方面,比如業務資料目標需求、資料清洗預處理、合適的資料整合工具技術、資料安全等。下面結合ETLCloud在幾個常見的業務場景實操演示下資料整合的實施過程。

工具平臺介面:

從四個典型場景看如何將資料整合“用到實處”

二、場景案例實操

1、資料清洗轉換

資料清洗和轉換是資料整合過程中不可或缺的環節。在資料整合之前,通常需要對資料進行清洗,包括去除重複資料、處理缺失值、解決資料格式不一致等問題。此外,還需要對資料進行轉換,以確保不同資料來源的資料能夠統一格式和結構。

假設我們這裡需要將Excel表格中的資料清洗轉換後輸出至庫表中進行儲存。

從四個典型場景看如何將資料整合“用到實處”

(Excel表格資料)

從四個典型場景看如何將資料整合“用到實處”

(存放資訊庫表)

我們可以這樣設計ETL流程,首先使用Excel讀取元件,將表格資料中的資料讀取出來,透過欄位名、欄位值對映元件將資料清洗轉換成適於儲存的格式,最後輸出至庫表中。流程設計如下圖所示:

從四個典型場景看如何將資料整合“用到實處”

(ETL流程設計)

其中Excel讀取元件中,我們需要選定檔案所在路徑,然後配置讀取欄位,可以從匯入中快速讀取。

從四個典型場景看如何將資料整合“用到實處”

(Excel讀取-輸入欄位配置)

然後我們再配置庫表輸出元件,載入資料庫表後可自動配置輸出欄位,其他的採取預設配置即可。先配置庫表輸出元件是為了能快速使用欄位名、欄位值對映元件。

從四個典型場景看如何將資料整合“用到實處”

(庫表輸出配置)

欄位名對映元件,選取源節點和目標節點後,元件會自動載入相關欄位,我們只需要點選進行匹配即可,

從四個典型場景看如何將資料整合“用到實處”

從四個典型場景看如何將資料整合“用到實處”

(欄位名對映配置)

欄位值對映,這裡我們只需要將表中isPayment這個欄位的值根據支付狀態修改為1和0即可

從四個典型場景看如何將資料整合“用到實處”

配置完畢後,我們來手動執行流程,檢視執行效果:

從四個典型場景看如何將資料整合“用到實處”

從四個典型場景看如何將資料整合“用到實處”

(執行結果)


2、資料轉移

資料轉移是指將資料從一個系統或儲存庫移動到另一個系統或儲存庫的過程。在資料整合中,經常會涉及到不同系統之間的資料遷移,例如從傳統資料庫遷移到雲端資料庫,或者從舊版企業應用系統遷移到新版系統。資料遷移需要考慮資料的完整性、一致性和實時性,以確保資料在遷移過程中不會丟失或損壞。

比如我們這邊將Mysql資料庫中tmalldemodb庫遷移到另外一個庫中。

從四個典型場景看如何將資料整合“用到實處”

(源庫資料)

從四個典型場景看如何將資料整合“用到實處”

(流程設計)

從四個典型場景看如何將資料整合“用到實處”

從四個典型場景看如何將資料整合“用到實處”

(執行結果)


3、資料整合

企業通常會有來自不同部門和系統的資料,例如財務、人力資源、銷售等。資料整合可以幫助企業整合這些資料,建立全面的資料檢視,從而支援跨部門的決策和分析。透過將這些資料進行整合,企業可以更好地理解業務運營狀況、識別機會和挑戰,從而最佳化業務流程和提升效率。

我這邊就可以根據商品表和使用者購買記錄表,根據使用者所購買的資訊整合成使用者購買商品資訊表。

從四個典型場景看如何將資料整合“用到實處”

(使用者購買記錄表)

從四個典型場景看如何將資料整合“用到實處”

(商品表)

從四個典型場景看如何將資料整合“用到實處”

(流程設計)

從四個典型場景看如何將資料整合“用到實處”

(自動創表-使用者購買商品資訊表)


4、實時資料處理

實時資料處理是資料整合中日益重要的一個場景,特別是在對大規模、高速資料進行分析和應用時。實時資料處理涉及從不同資料來源中即時捕獲資料,並對資料進行處理、分析和響應。

典型的場景就是實時資料同步,這裡我的需求是實時監聽使用者購買記錄表,並將資料同步到備用記錄表中。

新設計一個離線流程,然後在實時資料整合中建立資料監聽器,並繫結這個流程,這樣監聽器監聽到資料後都會呼叫這個離線流程,從而實現資料實時同步。

離線流程設計如下:

從四個典型場景看如何將資料整合“用到實處”

監聽器配置如下:

從四個典型場景看如何將資料整合“用到實處”

從四個典型場景看如何將資料整合“用到實處”

可以配置監聽異常郵件提醒:

從四個典型場景看如何將資料整合“用到實處”

啟動監聽器:

從四個典型場景看如何將資料整合“用到實處”

目標表資料:

從四個典型場景看如何將資料整合“用到實處”

當購買記錄表資料變化(包括增刪改)時,目標備用資料表也會同步:

從四個典型場景看如何將資料整合“用到實處”

目標表最終效果:

從四個典型場景看如何將資料整合“用到實處”

三、總結

未來,隨著大資料、人工智慧等技術的不斷髮展,資料整合將面臨更多的挑戰和機遇。隨著資料規模的不斷擴大,企業需要更加智慧化、自動化的資料整合解決方案。同時,隨著邊緣計算、物聯網等新技術的發展,資料來源和形式也將更加多樣化,資料整合將面臨更多的挑戰和機遇。

透過以上場景案例實操,我們也深入瞭解了資料整合在實際應用中的重要性和價值,以及ETL工具在資料整合中的作用和優勢。在日益複雜的資料環境下,資料整合的意義愈發重要。選擇合適的工具和技術將會極大地提升資料整合的效率和質量。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70030339/viewspace-2997623/,如需轉載,請註明出處,否則將追究法律責任。

相關文章