《Spark程式設計基礎》(Scala版)第四章簡答題答案(自制)

100%Jacker_Channel發表於2024-05-16

4 Spark 環境搭建和使用方法

簡答題

T1 請闡述Spark的四種部署模式。🌱

答:

① Local 模式(單機模式)

② Standalone 模式(使用 Spark 自帶的簡單叢集管理器)

③ YARN 模式(使用 YARN 作為叢集管理器)

④ Mesos 模式(使用 Mesos 作為叢集管理器)

⑤ Kubernets模式(部署在 K8S 叢集上)

T2 請闡述 Spark 和 Hadoop 的關係。

答:兩者可以部署在一起,相互協作,由 Hadoop 的 HDFS、HBase 等元件負責資料的儲存和管理,由 Spark 負責資料的計算。

T3 請闡述 spark-shell 在啟動時,< master-url > 分別採用 local、local[*] 和 local[K] 時,具體有什麼區別。🌱

答:

local:使用一個 Worker 執行緒本地化執行 Spark;

local[*]:使用與邏輯 CPU 個數相同數量的執行緒來本地化執行 Spark;

local[K]:使用 K 個 Worker 執行緒本地化執行 Spark 。

T4 spark-shell 在啟動時,採用 yarn-client 和 yarn-cluster 這兩種模式有什麼區別?

答:

yarn-client:Spark 採用 YARN 叢集模式,以客戶端模式連線YARN叢集;該模式適合執行互動型別的作業,常用於開發測試階段;

yarn-cluster:Spark 採用 YARN 叢集模式,以叢集模式連線 YARN 叢集;當使用者提交了作業之後,就可以關掉 Client,作業會繼續在 YARN 上執行;該模式不適合執行互動型別的作業,常用於企業生產環境。

T5 請總結開發 Spark 獨立應用程式的基本步驟。🌱

答:安裝編譯打包工具、編寫Spark應用程式程式碼、編譯打包和透過 spark-submit 執行程式。

T6 請闡述 Spark 叢集環境搭建的基本過程。🌱

答:搭建 Hadoop 叢集、安裝 Spark、配置環境變數、配置 Spark、啟動和關閉 Spark 叢集。

T7 請闡述在叢集上執行 Spark 應用程式的具體方法。

答:

① 啟動 Spark 叢集;

② 選擇一個叢集管理器,如 Hadoop YARN 管理器;

③ 在叢集中執行應用程式 JAR 包;

④ 在叢集中執行 spark-shell;

此時,在對應管理器的 Web 上可以檢視到應用程式的執行情況。

相關文章