ADF 第二篇:使用UI建立資料工廠

悅光陰發表於2020-12-08

使用者可以通過UI來建立ADF,在UI中建立ADF時,使用者不需要下載單獨的IDE,而僅僅通過 Microsoft Edge 或者 Google Chrome瀏覽器。使用者登入Azure Portal,選擇 “Data factories” 服務,通過 Data factories 服務中建立ADF。

一,建立Data Factory例項

開啟 Data factories之後,點選“+ Add”,建立自己的資料工廠例項:

step1,填寫Basics資訊

在 “Create Data Factory” 皮膚中開始建立資料工廠例項,首先填寫“Basics”資訊:Subscription(訂閱)、資源組(Resource group)、區域(Region)、名稱(Name)和版本(Version),版本選擇V2。

step2:配置git

在V2版本中,使用者在建立資料工廠時,還可以配置“Git configuration”,用於版本控制,可以勾選“Configure Git later”,在建立資料工廠例項之後,擇機配置git。

step3:檢查和建立

檢查(Review+Create)無誤後,點選“Create” 按鈕建立Data factory 例項。等例項建立完成,點選Next Step “Go to resource” 導航到資料工廠頁面。

二,作者和監視器

在Data factory的overview頁面上,點選"Authoer & Monitor"按鈕,這會導航到 Azure Data Factory的使用者介面(UI)頁面中。

ADF的UI介面如下圖所示,介面中顯示了常用的幾個功能:Create Pipeline、Create Data Flow等。

 

由於我們是第一次建立Data Factory,在建立Pipeline之前,我們還需要建立連線(connection)和資料集(dataset)。

三,建立連線服務

點選UI介面左側的“Manage”選項卡,首先建立連線,連線有兩種型別:Linked services 和 Integration runtimes,本文建立Liked Services,由於Linked Services 依賴於Integration runtimes,因此,我們首先建立Integration runtimes。

1,建立Integration runtimes(IR)

如何建立Integration runtimes,請閱讀:《ADF 第三篇:Integration runtime和 Linked Service

2,建立Linked Services

在Connections中選中“Linked Services”,點選“+New”,建立一個新的Linked Services:

 

不同的資料來源,有不同的Linked Service,要根據實際的資料來源,選擇合適的資料來源的型別,下圖建立的Linked Service的型別是SQL Server,輸入 Name、Connect via integration runtime、Server name、Database name、Authentication type 、 User name和 Password。

注意,Connect via integration runtime 就是上一節建立的Integration runtimes。

Azure Key Vault是一個儲存空間,使用者把密碼儲存到Azure Key Vault中,輸入Key Vault的名稱和密碼就能提取它儲存的資訊。

四,建立Dataset

dataset 代表資料儲存的結構(schema),它既可以代表資料來源,從資料來源中讀取資料;也可以代表資料目標,把資料儲存到該資料目標中。

建立一個dataset例項,只是儲存了資料儲存的結構等後設資料資訊,而不會真正儲存實際的資料。資料真正儲存在dataset指向的底層儲存物件中,舉個例子,dataset執行SQL Server例項中的一個表,那麼資料實際儲存在這個表中,而dataset儲存的資料是表的結構和導航到表的Linked Service。同一個dataset,既可以作為獲取資料的資料來源,也可以作為儲存資料的資料目標。

點選“鉛筆”對應的“Author”選項卡,進入到Fact Resources介面,點選“+”,選擇 Dataset,進入到建立Dataset的介面

設定Dataset的屬性,設定Dataset的Name,通過Linked service來獲取源資料的連線,通過Table name來指定表,建議把Import schema設定為From conneciton/store。

五,建立Pipeline

建立管道,管道相當於一個容器,可以把一個或多個Activity拖放到管道中。

如果向管道中放置Activity?使用者不需要編寫任何程式碼,只需要從“Activities”列表中選擇需要的Activity,拖放到Pipeline中,常用的Activity 通常位於“General”子目錄中。

本文演示Copy data Activity的用法,從“Move & transform”子目錄,選擇Copy data:

Copy Activity的作用是把資料從一個dataset轉移到另一個dataset中。

1,設定Copy Activity的Source屬性

Source 屬性表示資料來源,Copy Activity 從Source dataset中獲取資料:

2,Copy Activity的Sink屬性

Sink屬性用於設定資料目標,Sink dataset用於儲存資料:

3,Copy Activity的其他屬性

Mapping屬性選項卡用於設定Source dataset和Sink dataset之間的列對映,並可以設定列型別的轉換。

4,除錯Pipeline

點選“Debug”對當前Pipeline進行除錯

到此,一個簡單的ADF就建立完成。

 

參考文件:

Quickstart: Create a data factory by using the Azure Data Factory UI

相關文章