4 Spark 環境搭建和使用方法
簡答題
T1 請闡述Spark的四種部署模式。🌱
答:
① Local 模式(單機模式)
② Standalone 模式(使用 Spark 自帶的簡單叢集管理器)
③ YARN 模式(使用 YARN 作為叢集管理器)
④ Mesos 模式(使用 Mesos 作為叢集管理器)
⑤ Kubernets模式(部署在 K8S 叢集上)
T2 請闡述 Spark 和 Hadoop 的關係。
答:兩者可以部署在一起,相互協作,由 Hadoop 的 HDFS、HBase 等元件負責資料的儲存和管理,由 Spark 負責資料的計算。
T3 請闡述 spark-shell 在啟動時,< master-url > 分別採用 local、local[*] 和 local[K] 時,具體有什麼區別。🌱
答:
① local
:使用一個 Worker 執行緒本地化執行 Spark;
② local[*]
:使用與邏輯 CPU 個數相同數量的執行緒來本地化執行 Spark;
③ local[K]
:使用 K 個 Worker 執行緒本地化執行 Spark 。
T4 spark-shell 在啟動時,採用 yarn-client 和 yarn-cluster 這兩種模式有什麼區別?
答:
① yarn-client
:Spark 採用 YARN 叢集模式,以客戶端模式連線YARN叢集;該模式適合執行互動型別的作業,常用於開發測試階段;
② yarn-cluster
:Spark 採用 YARN 叢集模式,以叢集模式連線 YARN 叢集;當使用者提交了作業之後,就可以關掉 Client,作業會繼續在 YARN 上執行;該模式不適合執行互動型別的作業,常用於企業生產環境。
T5 請總結開發 Spark 獨立應用程式的基本步驟。🌱
答:安裝編譯打包工具、編寫Spark應用程式程式碼、編譯打包和透過 spark-submit 執行程式。
T6 請闡述 Spark 叢集環境搭建的基本過程。🌱
答:搭建 Hadoop 叢集、安裝 Spark、配置環境變數、配置 Spark、啟動和關閉 Spark 叢集。
T7 請闡述在叢集上執行 Spark 應用程式的具體方法。
答:
① 啟動 Spark 叢集;
② 選擇一個叢集管理器,如 Hadoop YARN 管理器;
③ 在叢集中執行應用程式 JAR 包;
④ 在叢集中執行 spark-shell;
此時,在對應管理器的 Web 上可以檢視到應用程式的執行情況。