tomaztk/Spark-for-data-engineers:面向資料工程師的Apache Spark學習教程
Spark for data Engineers 是一個Github儲存庫(點選標題),將為讀者提供概述、程式碼示例和示例,以更好地處理 Spark。
資料分析師、資料科學家、商業智慧分析師和許多其他角色需要按需提供資料。與資料孤島、許多分散的資料庫、Excel 檔案、CSV 檔案、JSON 檔案、API 和潛在不同風格的雲端儲存作鬥爭可能是乏味、令人傷腦筋和耗時的。
將遵循一組步驟、程式和流程的自動化流程從資料庫中獲取資料子集、列、二進位制檔案,並將它們合併在一起以滿足業務需求和潛力,這對於許多組織和團隊來說仍然是一項有利的工作。
Spark 是這項任務的絕對贏家,也是採用的絕佳選擇。
資料工程應具備以下程度和能力:
- 系統架構
- 程式設計
- 資料庫設計和配置
- 介面和感測器配置
除此之外,與熟悉技術工具一樣重要,資料架構和管道設計的概念更為重要。如果沒有對以下方面的紮實概念理解,這些工具就毫無價值:
- 資料模型
- 關係型和非關係型資料庫設計
- 資訊流
- 查詢執行和優化
- 資料儲存對比分析
- 邏輯運算
Apache Spark 擁有涵蓋這些主題的所有內建技術,並且有能力實現將功能系統組裝在一起以實現目標的具體目標。
Apache Spark 旨在構建更快、更可靠的資料管道,涵蓋低階別和結構化 API,併為流式資料、機器學習、資料工程和構建管道以及擴充套件 Spark 生態系統帶來工具和包。
資料工程師的職位與分析職位略有不同。為資料工程師學習 Spark 將側重於以下主題,而不是數學、統計和高階分析技能:
- 安裝和設定環境
- 資料轉換、資料建模
- 使用關係和非關係資料
- 設計管道、ETL 和資料移動
- 編排和架構檢視
目錄/精選博文
- 什麼是 Apache Spark(部落格文章)
- 安裝 Apache Spark(部落格文章)
- 繞過 Apache Spark 中的 CLI 和 WEB UI(部落格文章)
- Spark 架構——本地和叢集模式(博文)
- 設定 Spark 叢集(部落格文章)
- 設定 IDE(部落格文章)
- 使用 R 和 Python 啟動 Spark(部落格文章)
- 建立 RDD 檔案(部落格文章)
- RDD 操作(部落格文章)
- 使用資料框(部落格文章)
- 使用包和 Spark DataFrames(部落格文章)
- Spark SQL(部落格文章)
- Spark SQL 分桶和分割槽(部落格文章)
- Spark SQL 查詢提示和執行(部落格文章)
- Spark Streaming 簡介(博文)
- Spark 流的資料幀操作(部落格文章)
- Spark 流的水印和連線(部落格文章)
- Spark 流的時間視窗(部落格文章)
- Spark Streaming 的資料工程(部落格文章)
相關文章
- 為Apache Spark準備的深度學習ApacheSpark深度學習
- Spark學習——資料傾斜Spark
- 面向Apache Spark的Kotlin預覽版簡介ApacheSparkKotlin
- 大資料學習路線教程圖,如何快速入門Spark大資料Spark
- Spark流教程 :使用 Apache Spark 的Twitter情緒分析SparkApache
- 使用Apache Spark和BigDL來構建深度學習驅動的大資料分析ApacheSpark深度學習大資料
- 大資料學習—Spark核心概念RDD大資料Spark
- Apache Spark Dataframe Join語法教程ApacheSpark
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 大資料如何學習,大資料工程師學習經驗分享大資料工程師
- 大資料基礎學習-9.Spark2.1.1大資料Spark
- Apache Spark:資料框,資料集和RDD之間的區別 - BaeldungApacheSpark
- 面向文獻的學習
- spark 學習Spark
- 【大資料學習日記】Spark之shuffle調優大資料Spark
- spark學習筆記--資料讀取與儲存Spark筆記
- 教程:Apache Spark SQL入門及實踐指南!ApacheSparkSQL
- 大資料學習,大資料發展趨勢和Spark介紹大資料Spark
- 大資料工程師-學習路線-轉大資料工程師
- 資料科學中的 Spark 入門資料科學Spark
- Apache Spark:大資料處理統一引擎ApacheSpark大資料
- spark學習筆記--Spark SQLSpark筆記SQL
- Struts2入門教程(學習教程資料).pdf
- 大資料工程師需要學習哪些技術?大資料工程師
- spark學習筆記-- Spark StreamingSpark筆記
- 在Apache Hadoop和Spark上加速大資料加密 [session]ApacheHadoopSpark大資料加密Session
- 使用R和Apache Spark處理大規模資料 [session]ApacheSparkSession
- 從BAT大資料工程師那裡總結的大資料學習方法BAT大資料工程師
- 學術加油站|HIST,面向海量資料的學習型多維直方圖直方圖
- 大資料教程分享Actor學習筆記大資料筆記
- Python學習教程:基本資料型別Python資料型別
- Spark學習進度-Spark環境搭建&Spark shellSpark
- Spring4.0MVC學習資料,簡單學習教程(一)SpringMVC
- Spark學習——排序ShuffleSpark排序
- spark學習筆記Spark筆記
- spark 學習總結Spark
- Spark入門學習Spark
- Spark 學習筆記Spark筆記