Azure Databricks 第一篇:初始Databricks,建立工作區、叢集和Notebook

悅光陰發表於2020-12-22

Azure Databricks是一個可擴充套件的資料分析平臺,基於Apache Spark。Azure Databricks 工作區(Workspace)是一個互動式的環境,工作區把物件(notebook、library、dashboards、experiments)組織成資料夾,用於資料整合和資料分析。

一,Azure Databricks的基本概念

1,工作區是一個互動式的環境

工作區是一個互動式的環境,可以管理Databricks的叢集、Notebook、Job等物件。

2,叢集是執行Notebook和job的資源

在使用工作區中,要進行資料整合和資料分析,必須建立叢集(Cluster),Cluser代表執行notebook和job的計算資源,並用於儲存相應的配置資訊。

Cluster有兩種型別:通用(All-purpose)和job,all-purpose叢集是互動式的,用於通用的資料整合和資料分析任務,而job型別的叢集用於定時執行job。

job是一個非互動式的機制,用於立即或按照計劃來執行notebook或library。job型別的叢集在job開始時建立,在job完成時結束。

根據cluster的型別,把Azure Databricks的工作負載(workload)分為兩個型別:data engineering (job) 和 data analytics (all-purpose)。

  • 資料工程:(自動)工作負載在Job群集上執行,Azure Databricks作業計劃程式為每個工作負載建立了一個工作群集。
  • 資料分析:(互動式)工作負載在all-purpose叢集上執行,互動式工作負載通常在Azure Databricks筆記本中執行命令,但是在現有的通用叢集上執行作業也被視為互動式工作負載。

3,Notebook是一個基於Web的記事本

Notebook是一個包含可執行命令的記事本,使用者可以在Notebook中編寫Python命令,編輯命令,並執行命令,獲得輸出的結果,並可以對結果進行視覺化處理,Notebook的功能和UI類似於Jupyter Notebook。

二,建立Workspace

通過Azure UI來建立工作區,從Azure Services中找到Azure Databricks。

建立工作區,選擇訂閱用於管理資源和成本,需要設定訂閱(Subscription)和資源組(Resource group),選擇定價策略(Pricing Tier)。

選擇“Review + Create”,點選Create 按鈕來建立工作區。等到工作區部署完成之後,開啟Azure Databricks Service,點選“Launch Workspace”登入到工作區門戶。

三,建立Spark Cluster

Spark Cluster可以看作是Databricks的計算資源,因此必須建立叢集。

1,登入到工作區門戶

登入(Launch)到新建的工作區門戶中,從“Common Tasks”列表中點選“New Cluster”。

2,配置叢集 

Cluster Mode:叢集的模式共有三種,High concurrency(高併發)、Standard(標準)和Single Node(單節點)。標準模式是推薦模式,通常用於單使用者的叢集。

Pool:Pool是一組空閒的隨時可用的例項,可減少叢集啟動和自動縮放的時間。當連線到Pool的叢集需要一個例項時,它首先嚐試分配Pool的中一個例項,如果該Pool沒有空閒的例項,那麼該Pool將通過從例項提供者分配有ige新的例項來擴充套件,以滿足叢集的需求。叢集釋放例項後,它將返回到Pool中,並可以提供給其他叢集使用。只有連線到Pool的叢集才能使用該Pool的空閒例項。例項在Pool中處於空閒狀態時是免費的。

Databricks Runtime:執行時版本配置,選擇用於建立叢集的image,執行時是在叢集上執行的一組核心元件。

Enable autoscaling:勾選自動縮放,根據工作負載的不同,叢集在最大節點數量和最小節點數量之間自動縮放。

Terminate after xx minutes of inactivity:當叢集不活動時,延遲一定時間後,結束叢集。

配置完成之後,點選頂部的“Create Clustere” 按鈕建立叢集。

四,建立Notebook

Notebook是一個包含可執行命令的記事本,使用者可以在Notebook中編寫Python命令,編輯命令,並執行命令,獲得輸出的結果,並可以對結果進行視覺化處理。

從Common Tasks中選擇“New Notebook”,輸入Notebook的Name,選擇程式語言Python、選擇叢集,點選對話方塊底部的“Create”按鈕建立Notebook。

在新建的Notebook中輸入命令,列印"hello world",點選"Shift+Enter",執行命令

 

 

參考文件:

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal

相關文章