Databricks 第10篇:Job

悅光陰發表於2021-01-27

大家知道,使用者可以在Notebook UI中以互動方式執行Notebook中的SQL、Python等程式碼,互動方式便於資料的調查和分析。使用者還可以通過Job來自動維護資料,Job是立即執行或按計劃執行notebook(或JAR)的一種方法,通過Job可以定時執行資料的清理和整合,使用者只需要設定好計劃(schedule),就可以自動實現資料的維護。

使用者也可以通過Databricks UI來監控Job的執行結果,或者傳送email alert,一旦Job執行失敗或成功,使用者會收到包含Job執行結果的郵件。

Databricks限制一個工作區:

  • 最多隻能同時執行1000個Job,併發度是1000;
  • 在一個小時內,最多可以建立5000個Job(包括“立即執行”和“執行提交”)

一,使用UI來建立Job

點選“Jobs”圖示,進入到Jobs頁面,點選下面的“Create Job”按鈕來建立Job:

輸入Job的Title,並選擇Job執行的Task。

設定Job的屬性:

  • 設定Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
  • 設定Cluster:設定Job執行時使用的Cluster
  • 設定Schedule:設定計劃定時執行Job

二,立即執行Job

若要立即執行作業,請在“Active runs”列表中單擊“Run Now”:

三,檢視Job執行結果

可以通過匯出作業執行的結果來持久儲存作業執行。 對於筆記本作業執行,可以先匯出呈現的筆記本,稍後再將其匯入到 Databricks 工作區中。

1,在作業詳細資訊頁中,單擊“執行”列中的作業執行名稱。

 2,單擊“匯出到 HTML”。

 

四,控制對Job的訪問

Job的所有者和管理員可以通過"Job Access Control"控制許可權。使用作業訪問控制,作業所有者可以選擇允許哪些其他使用者或組檢視作業的結果。 所有者還可以選擇允許誰管理其作業的執行(即,呼叫“立即執行”,然後單擊“取消”)。

Step1,跳轉到Job的詳細資訊頁面,點選“Advanced”連結

 Step2,點選Permissions後面的“Edit”連結

Step3,在彈出對話方塊中,通過使用者名稱旁邊的下拉選單分配作業許可權。

 

 

 

參考文件:

Databricks Jobs

相關文章