一,引言
在本文中,我們將繼續瞭解什麼是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 資料工程中的資料管道,並瞭解繼承執行時 ----- IR。
--------------------我是分割線--------------------
1,Azure Data Factory(一)入門簡介
2,Azure Data Factory(二)複製資料
3,Azure Data Factory(三)整合 Azure Devops 實現CI/CD
4,Azure Data Factory(四)整合 Logic App 的郵件通知提醒
5,Azure Data Factory(五)Blob Storage 金鑰管理問題
6,Azure Data Factory(六)資料集型別為Dataverse的Link測試
7,Azure Data Factory(七)資料集驗證之使用者託管憑證
8,Azure Data Factory(八)資料集驗證之服務主體(Service Principal)
9,Azure Data Factory(九)基礎知識回顧
二,正文
1,什麼是 Azure Data Factory ?
Azure Data Factory 是一種基於雲的資料繼承服務,允許組織城建,計劃和編排資料管道。Azure Data Factory 提供了視覺化介面或基於程式碼的方式來整合來自各種來源的資料,對其進行轉化和處理,然後再將其載入到資料目標儲存中。
Azure Data Factory 支援廣泛的資料來源,包括本地和基於雲上的資料來源,例如 Sql Server,Azure Blob,Dataverse 等等,它還提供資料移動,資料轉化,監控和管理等功能,使其成為資料整合的綜合解決方案。
2,ADF 的工作原理是什麼?
Azure 資料工廠 (ADF) 透過提供視覺化介面或基於程式碼的方法來定義、計劃和執行資料管道。這些管道可用於執行各種任務,包括資料移動和轉換。
以下是 ADF 工作原理所涉及的步驟:
- 建立資料工廠:第一步是在 Azure 中建立資料工廠。這可以在 Azure 門戶中或使用 Azure CLI 完成。
- 定義資料來源和目標:建立資料工廠後,您需要定義要在管道中使用的資料來源和目標。資料來源可以是本地的或基於雲的,目標可以是 Azure Data Lake Storage、Azure Blob 儲存或 Azure SQL 資料庫。
- 建立管道:管道是 ADF 的構建塊。它們定義了移動和轉換資料所需的步驟。可以在 ADF 視覺化介面中或使用 Azure 資料工廠 SDK 建立管道。
- 計劃管道:可以安排管道定期執行或按需執行。這允許您自動執行資料管道。
- 監視管道:ADF 提供監視功能,以便您可以監視管道的狀態、檢視日誌並管理已處理的資料。
ADF 是一個功能強大的工具,可以幫助您為各種資料整合場景構建、排程和編排資料管道。對於需要的各種規模的組織來說,這是一個不錯的選擇到整合來自各種來源的資料並將其載入到各種目標中。
這裡有一些額外的細節關於 ADF 的工作原理:
- 資料聯結器:ADF 支援各種資料聯結器,包括本地資料來源和基於雲的資料來源。這使得您可以輕鬆地將來自各種來源的資料整合到資料管道中。
- 資料轉換:ADF 提供各種資料轉換活動,例如複製資料、轉換資料和執行指令碼。這可以讓你到根據以下內容操縱和塑造您的資料到您的需求。
- 排程和監控:ADF 提供排程和監控功能,因此您可以自動執行資料管道並監控資料的狀態。這有助於您確保資料管道按預期執行並且資料始終是最新的。
- 整合執行時:ADF 提供整合執行時,負責執行管道中的活動。整合執行時分為三種型別:Azure IR、自託管 IR 和 Azure-SSIS IR。這使您可以根據您的特定需求選擇正確的整合執行時。
- 安全功能:ADF 提供多種安全功能到保護您的資料,例如資料加密和訪問控制。這可以幫助您確保您的資料安全並且只能訪問到授權使用者。
3,Azure 資料工廠中的資料管道
ADF 中的管道是資料整合的構建塊,使您能夠到自動執行復雜的任務,例如資料移動、轉換和決策。管道由一項或多項活動組成,它們是 ADF 中的基本工作單元。有多種型別的活動可供選擇,每種活動都經過精心設計到執行特定任務。
1)資料移動:
使用複製資料活動到從一個移動資料地點 到其他。此活動支援廣泛的資料來源和目標,包括本地資料來源和基於雲的資料來源。透過複製資料活動,您可以執行從源資料儲存複製資料等操作到目標資料儲存或從其中複製資料地點 到資料儲存中的另一個。
2)資料轉換:
ADF 提供了多種轉型活動,使您能夠到操縱和塑造您的資料。例如,您可以使用派生列活動到基於表示式、Lookup 活動建立新列到從另一個資料來源檢索資料,以及聚合活動到彙總資料。ADF 還支援使用 Azure Databricks 或 Azure Functions 進行基於程式碼的轉換,為您提供靈活性到建立量身定製的自定義轉換到您的具體需求。
1,控制流:
管道可以包括控制流活動,使您能夠到根據條件執行操作。例如,您可以使用 If Condition 活動到根據表示式的結果或 For Each 活動執行不同的活動到對集合中的每個專案執行相同的一組活動。這些活動可以讓你到建立可以適應的複雜工作流程到改變資料和條件。
2,依賴關係:
管道可以包括依賴關係活動之間,它決定活動執行的順序。例如,您可以指定一個活動只能在另一個活動完成後啟動,或者多個活動應並行執行。這些依賴關係讓你到建立高效的工作流程,最大限度地減少延遲並最大限度地提高資源利用率。
3,監控和管理:
ADF 提供強大的監控和管理功能,使您能夠到監視管道的狀態、檢視日誌並管理已處理的資料。您可以在 ADF 視覺化介面中檢視管道、活動和資料集的狀態,或使用 Azure 資料工廠 REST API 以程式設計方式檢索狀態資訊。這可以讓你到快速識別任何問題或瓶頸並採取糾正措施到確保您的資料整合工作流程順利執行。
4,瞭解整合執行時 (IR)
整合執行時 (IR) 是 Azure 資料工廠 (ADF) 的基本元件,可幫助您到輕鬆執行和管理資料整合工作流程。IR 提供了一個安全、可擴充套件且受管理的環境,用於執行管道中指定的活動,例如資料移動和轉換任務。
讓我們更深入地研究 Integration Runtime 在 ADF 中的作用:
目的: IR 的主要目標是到為執行資料整合活動提供安全、託管且可擴充套件的環境。透過抽象基礎設施和網路複雜性,IR 使您能夠到只專注於構建資料整合邏輯,而不用擔心底層細節.
型別:它負責執行管道中的活動。IR 分為三種型別:
- Azure IR:此 IR 用於基於雲的資料來源和目標之間的資料整合。
- 自託管 IR:此 IR 用於本地和基於雲的資料來源和目標之間的資料整合。
- Azure-SSIS IR:此 IR 用於需要託管環境來執行 SQL Server Integration Services (SSIS) 包的資料整合方案。
安全性:IR 非常重視安全性,自動處理網路安全和資料加密問題。此外,IR 支援 Azure Active Directory (AAD) 身份驗證,使您能夠到使用 AAD 憑據安全地訪問資料來源和目標。
可擴充套件性:IR設計到應對可擴充套件性挑戰,自動調整基礎設施和網路資源到滿足您的資料整合任務的需求。例如,IR 可以在峰值負載期間自動增加叢集中的節點數量,並在負載下降時自動減少節點數量。
監控:IR提供實時監控和管理功能,使您到跟蹤資料整合操作的效能和狀態。您可以透過 ADF 視覺化介面監視 IR、管道和活動,或使用 Azure 資料工廠 REST API 以程式設計方式檢索狀態資訊。
總之,整合執行時是 Azure 資料工廠不可或缺的元件,為執行資料整合工作流提供安全、可擴充套件和託管的環境。藉助 IR,您可以靈活、可擴充套件地執行資料整合操作,讓工作變得更加輕鬆到滿足您的資料整合場景的需求。
三,結尾
今天我們繼續介紹了 Azure Data Factory 的概念知識,集合前幾期實踐內容,能更好的瞭解 Azure Data Factory 常見的元件,更清晰的瞭解我們可以使用 Azure Data Factory 為我們的專案做哪些貢獻了。