tomaztk/Spark-for-data-engineers:面向資料工程師的Apache Spark學習教程
Spark for data Engineers 是一個Github儲存庫(點選標題),將為讀者提供概述、程式碼示例和示例,以更好地處理 Spark。
資料分析師、資料科學家、商業智慧分析師和許多其他角色需要按需提供資料。與資料孤島、許多分散的資料庫、Excel 檔案、CSV 檔案、JSON 檔案、API 和潛在不同風格的雲端儲存作鬥爭可能是乏味、令人傷腦筋和耗時的。
將遵循一組步驟、程式和流程的自動化流程從資料庫中獲取資料子集、列、二進位制檔案,並將它們合併在一起以滿足業務需求和潛力,這對於許多組織和團隊來說仍然是一項有利的工作。
Spark 是這項任務的絕對贏家,也是採用的絕佳選擇。
資料工程應具備以下程度和能力:
- 系統架構
- 程式設計
- 資料庫設計和配置
- 介面和感測器配置
除此之外,與熟悉技術工具一樣重要,資料架構和管道設計的概念更為重要。如果沒有對以下方面的紮實概念理解,這些工具就毫無價值:
- 資料模型
- 關係型和非關係型資料庫設計
- 資訊流
- 查詢執行和優化
- 資料儲存對比分析
- 邏輯運算
Apache Spark 擁有涵蓋這些主題的所有內建技術,並且有能力實現將功能系統組裝在一起以實現目標的具體目標。
Apache Spark 旨在構建更快、更可靠的資料管道,涵蓋低階別和結構化 API,併為流式資料、機器學習、資料工程和構建管道以及擴充套件 Spark 生態系統帶來工具和包。
資料工程師的職位與分析職位略有不同。為資料工程師學習 Spark 將側重於以下主題,而不是數學、統計和高階分析技能:
- 安裝和設定環境
- 資料轉換、資料建模
- 使用關係和非關係資料
- 設計管道、ETL 和資料移動
- 編排和架構檢視
目錄/精選博文
- 什麼是 Apache Spark(部落格文章)
- 安裝 Apache Spark(部落格文章)
- 繞過 Apache Spark 中的 CLI 和 WEB UI(部落格文章)
- Spark 架構——本地和叢集模式(博文)
- 設定 Spark 叢集(部落格文章)
- 設定 IDE(部落格文章)
- 使用 R 和 Python 啟動 Spark(部落格文章)
- 建立 RDD 檔案(部落格文章)
- RDD 操作(部落格文章)
- 使用資料框(部落格文章)
- 使用包和 Spark DataFrames(部落格文章)
- Spark SQL(部落格文章)
- Spark SQL 分桶和分割槽(部落格文章)
- Spark SQL 查詢提示和執行(部落格文章)
- Spark Streaming 簡介(博文)
- Spark 流的資料幀操作(部落格文章)
- Spark 流的水印和連線(部落格文章)
- Spark 流的時間視窗(部落格文章)
- Spark Streaming 的資料工程(部落格文章)
相關文章
- 大資料如何學習,大資料工程師學習經驗分享大資料工程師
- 面向Apache Spark的Kotlin預覽版簡介ApacheSparkKotlin
- 大資料工程師-學習路線-轉大資料工程師
- 大資料工程師需要學習哪些技術?大資料工程師
- Spark學習——資料傾斜Spark
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- Spark流教程 :使用 Apache Spark 的Twitter情緒分析SparkApache
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 大資料學習路線教程圖,如何快速入門Spark大資料Spark
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師
- 從BAT大資料工程師那裡總結的大資料學習方法BAT大資料工程師
- Apache Spark Dataframe Join語法教程ApacheSpark
- 雲原生運維工程師學習路線與資料運維工程師
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 資料科學、資料工程學習路線資料科學
- 大資料學習—Spark核心概念RDD大資料Spark
- 好程式設計師大資料學習路線分享spark之Scala程式設計師大資料Spark
- 資料科學家會被機器學習工程師取代嗎? - KDnuggets資料科學機器學習工程師
- 大資料初學者怎樣學習?Java工程師怎麼轉行大資料?大資料Java工程師
- 系統學習大資料需要學習哪些內容,五年大資料工程師經驗分享大資料工程師
- 談談Java工程師的學習Java工程師
- PHP 工程師學 Python 資料型別PHP工程師Python資料型別
- PHP工程師學Python資料型別PHP工程師Python資料型別
- 進階指南|三個月大資料工程師學習計劃大資料工程師
- Apache Spark:資料框,資料集和RDD之間的區別 - BaeldungApacheSpark
- 學歷影響大資料工程師的收入嗎大資料工程師
- PHP工程師的最佳學習路線PHP工程師
- 想做資料科學家/工程師?從零開始系統規劃大資料學習之路資料科學工程師大資料
- 大資料基礎學習-9.Spark2.1.1大資料Spark
- AI工程師的機遇在哪?機器學習工程師最急缺AI工程師機器學習
- GlobalSpec:2024年面向工程師的營銷報告工程師
- 餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹大資料Spark
- 教程:Apache Spark SQL入門及實踐指南!ApacheSparkSQL
- 一個演算法工程師的學習演算法工程師
- 深度學習工程師的4個檔次深度學習工程師
- 一份資料工程師必備的學習資源,乾貨滿滿(附連結)工程師
- spark學習筆記--資料讀取與儲存Spark筆記
- 面向文獻的學習