tomaztk/Spark-for-data-engineers:面向資料工程師的Apache Spark學習教程

banq發表於2021-12-22

Spark for data Engineers 是一個Github儲存庫(點選標題),將為讀者提供概述、程式碼示例和示例,以更好地處理 Spark。

資料分析師、資料科學家、商業智慧分析師和許多其他角色需要按需提供資料。與資料孤島、許多分散的資料庫、Excel 檔案、CSV 檔案、JSON 檔案、API 和潛在不同風格的雲端儲存作鬥爭可能是乏味、令人傷腦筋和耗時的。

將遵循一組步驟、程式和流程的自動化流程從資料庫中獲取資料子集、列、二進位制檔案,並將它們合併在一起以滿足業務需求和潛力,這對於許多組織和團隊來說仍然是一項有利的工作。

Spark 是這項任務的絕對贏家,也是採用的絕佳選擇。

資料工程應具備以下程度和能力:

  1. 系統架構
  2. 程式設計
  3. 資料庫設計和配置
  4. 介面和感測器配置

除此之外,與熟悉技術工具一樣重要,資料架構和管道設計的概念更為重要。如果沒有對以下方面的紮實概念理解,這些工具就毫無價值:

  1. 資料模型
  2. 關係型和非關係型資料庫設計
  3. 資訊流
  4. 查詢執行和優化
  5. 資料儲存對比分析
  6. 邏輯運算

Apache Spark 擁有涵蓋這些主題的所有內建技術,並且有能力實現將功能系統組裝在一起以實現目標的具體目標。

Apache Spark 旨在構建更快、更可靠的資料管道,涵蓋低階別和結構化 API,併為流式資料、機器學習、資料工程和構建管道以及擴充套件 Spark 生態系統帶來工具和包。

資料工程師的職位與分析職位略有不同。為資料工程師學習 Spark 將側重於以下主題,而不是數學、統計和高階分析技能:

  1. 安裝和設定環境
  2. 資料轉換、資料建模
  3. 使用關係和非關係資料
  4. 設計管道、ETL 和資料移動
  5. 編排和架構檢視

目錄/精選博文

  1. 什麼是 Apache Spark部落格文章
  2. 安裝 Apache Spark部落格文章
  3. 繞過 Apache Spark 中的 CLI 和 WEB UI部落格文章
  4. Spark 架構——本地和叢集模式博文
  5. 設定 Spark 叢集部落格文章
  6. 設定 IDE部落格文章
  7. 使用 R 和 Python 啟動 Spark部落格文章
  8. 建立 RDD 檔案部落格文章
  9. RDD 操作部落格文章
  10. 使用資料框部落格文章
  11. 使用包和 Spark DataFrames部落格文章
  12. Spark SQL部落格文章
  13. Spark SQL 分桶和分割槽部落格文章
  14. Spark SQL 查詢提示和執行部落格文章
  15. Spark Streaming 簡介博文
  16. Spark 流的資料幀操作部落格文章
  17. Spark 流的水印和連線部落格文章
  18. Spark 流的時間視窗部落格文章
  19. Spark Streaming 的資料工程部落格文章

相關文章