一,引言
今天分享一個新的Azure 服務-----Azure Data Factory(Azure 資料工廠),怎麼理解,參考根據官方解釋-----資料工廠解釋:大資料需要可以啟用協調和操作過程以將這些巨大的原始資料儲存優化為可操作的業務見解的服務。 Azure 資料工廠是為這些複雜的混合提取-轉換-載入 (ETL)、提取-載入-轉換 (ELT) 和資料整合專案而構建的託管雲服務。
說簡單點,Azure Data Factory 可以建立和計劃資料驅動型工作,也就是 Pineline,從不同的資料來源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)中提取資料,進行加工處理,進行復雜計算後,將這些有價值的資料可以歸檔,儲存到不同的目標源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)
二,正文
Azure Data Factory 中的Pipeline 通常執行以下三個步驟:
1,連線,收集:連線,收集是指在構建 pipeline 時需要有資料來源,然後再將資料來源中提取出來的資料進行加工處理,通過使用 Data Factory 中的 pipeline ,新增 “Activites” 操作,將資料從本地和雲的源資料儲存移到雲的集中資料儲存進行進一步的分析。
2,轉換和擴充:將DataSet 中收集到的資料來源的資料,可以使用一些其他的服務,例如 DataB ,Machine Learning進行資料處理,轉化,可以將這些資料轉化成有價值的,可信的生產環境的資料
3,釋出:這裡的釋出,並不是指程式碼的釋出,而是指手動觸發將轉化、處理好的資料傳送到目標源,同時可以設定Trgger ,定時執行釋出計劃。
Azure Data Factory 中一些關鍵元件:
1,pipeline:這裡的 pipeline 要和Azure DevOps 中的 pipeline 概念上有些類似,它是指我們的Azure Data Factory 可以包含一個或者多個 pipeline 。pipeline是有多個Activites組成,來執行一項任務的。如下圖所示,這裡顯示多個pipeline。
2,Activities:一個pipeline 可以有多個 Activities,這些是對資料執行的一些動作,例如 複製資料,如下圖,當前 Pipeline 中包含了一個 Copy data
3,datasets(資料集):簡單理解,就是包含了 資料來源、目標源。資料集可識別不同資料儲存(如表、檔案、資料夾和文件)中的資料,使用零個或多個 "datset" 作為輸入,一個或多個 "dataset" 作為輸出。
4,linked services:連結服務就好比連結字串,金鑰等資訊,用於定義Azure Data Factory 連結到外部資源時所需喲啊的連線資訊,如下圖連結服務指連結到Azure Storage Account 所需要的連線字串。
同時,點選 “Test connection” 進行測試,是否可以正常連線。
Data Factory 中 Data Set,Activity,Linked Service,Pipeline 直接的關係
Azure Data Factory不儲存任何資料。我們可以使用它用於建立資料驅動型工作流,在支援的資料儲存之間協調資料的移動(建立一個包含 pipiline 的 Data Factory,將資料從 Blob1 儲存移動到 Blob2 儲存)。 它還可以用於在其他區域或本地環境中通過計算服務來處理資料。 它還允許使用程式設計方式及 UI 機制來監視和管理工作流。
三,結尾
今天只是對 Azure Data Factory 有一個初步的認識,以及可以用來做什麼,下一篇文章實際建立Aure Data Factory,通過建立 pipeline 配置將 storage1 的資料複製到 storage2 中。
參考資料:Azure Data Factory(英文),Azure Data Factory(中文)
作者:Allen
版權:轉載請在文章明顯位置註明作者及出處。如發現錯誤,歡迎批評指正。