【備忘】《圖解Spark 核心技術與案例實戰》PDF
第1章 Spark及其生態圈概述
1.1 Spark簡介
1.1.1 什麼是Spark
1.1.2 Spark與MapReduce比較
1.1.3 Spark的演進路線圖
1.2 Spark生態系統
1.2.1 Spark Core
1.2.2 Spark Streaming
1.2.3 Spark SQL
1.2.4 BlinkDB
1.2.5 MLBase/MLlib
1.2.6 GraphX
1.2.7 SparkR
1.2.8 Alluxio
1.3 小結
第2章 搭建Spark實戰環境
2.1 基礎環境搭建
2.1.1 搭建叢集樣板機
2.1.2 配置叢集環境
2.2 編譯Spark原始碼
2.2.1 配置Spark編譯環境
2.2.2 使用Maven編譯Spark
2.2.3 使用SBT編譯Spark
2.2.4 生成Spark部署包
2.3 搭建Spark執行叢集
2.3.1 修改配置檔案
2.3.2 啟動Spark
2.3.3 驗證啟動
2.3.4 第一個例項
2.4 搭建Spark實戰開發環境
2.4.1 CentOS中部署IDEA
2.4.2 使用IDEA開發程式
2.4.3 使用IDEA閱讀原始碼
2.5 小結
第二篇 核心篇
第3章 Spark程式設計模型
3.1 RDD概述
3.1.1 背景
3.1.2 RDD簡介
3.1.3 RDD的型別
3.2 RDD的實現
3.2.1 作業排程
3.2.2 解析器整合
3.2.3 記憶體管理
3.2.4 檢查點支援
3.2.5 多使用者管理
3.3 程式設計介面
3.3.1 RDD分割槽(Partitions)
3.3.2 RDD首選位置(PreferredLocations)
3.3.3 RDD依賴關係(Dependencies)
3.3.4 RDD分割槽計算(Iterator)
3.3.5 RDD分割槽函式(Partitioner)
3.4 建立操作
3.4.1 並行化集合建立操作
3.4.2 外部儲存建立操作
3.5 轉換操作
3.5.1 基礎轉換操作
3.5.2 鍵值轉換操作
3.6 控制操作
3.7 行動操作
3.7.1 集合標量行動操作
3.7.2 儲存行動操作
3.8 小結
第4章 Spark核心原理
4.1 訊息通訊原理
4.1.1 Spark訊息通訊架構
4.1.2 Spark啟動訊息通訊
4.1.3 Spark執行時訊息通訊
4.2 作業執行原理
4.2.1 概述
4.2.2 提交作業
4.2.3 劃分排程階段
4.2.4 提交排程階段
4.2.5 提交任務
4.2.6 執行任務
4.2.7 獲取執行結果
4.3 排程演算法
4.3.1 應用程式之間
4.3.2 作業及排程階段之間
4.3.3 任務之間
4.4 容錯及HA
4.4.1 Executor異常
4.4.2 Worker異常
4.4.3 Master異常
4.5 監控管理
4.5.1 UI監控
4.5.2 Metrics
4.5.3 REST
4.6 例項演示
4.6.1 計算年降水例項
4.6.2 HA配置例項
4.7 小結
第5章 Spark儲存原理
5.1 儲存分析
5.1.1 整體架構
5.1.2 儲存級別
5.1.3 RDD儲存呼叫
5.1.4 讀資料過程
5.1.5 寫資料過程
5.2 Shuffle分析
5.2.1 Shuffle簡介
5.2.2 Shuffle的寫操作
5.2.3 Shuffle的讀操作
5.3 序列化和壓縮
5.3.1 序列化
5.3.2 壓縮
5.4 共享變數
5.4.1 廣播變數
5.4.2 累加器
5.5 例項演示
5.6 小結
第6章 Spark執行架構
6.1 執行架構總體介紹
6.1.1 總體介紹
6.1.2 重要類介紹
6.2 本地(Local)執行模式
6.2.1 執行模式介紹
6.2.2 實現原理
6.3 偽分佈(Local-Cluster)執行模式
6.3.1 執行模式介紹
6.3.2 實現原理
6.4 獨立(Standalone)執行模式
6.4.1 執行模式介紹
6.4.2 實現原理
6.5 Yarn執行模式
6.5.1 YARN執行框架
6.5.2 YARN-Client執行模式介紹
6.5.3 YARN-Client 執行模式實現原理
6.5.4 YARN-Cluster執行模式介紹
6.5.5 YARN-Cluster 執行模式實現原理
6.5.6 YARN-Client與YARN-Cluster對比
6.6 Mesos執行模式
6.6.1 Mesos介紹
6.6.2 粗粒度執行模式介紹
6.6.3 粗粒度實現原理
6.6.4 細粒度執行模式介紹
6.6.5 細粒度實現原理
6.6.6 Mesos粗粒度和Mesos細粒度對比
6.7 例項演示
6.7.1 獨立執行模式例項
6.7.2 YARN-Client例項
6.7.3 YARN-Cluster例項
6.8 小結
第三篇 元件篇
第7章 Spark SQL
7.1 Spark SQL簡介
7.1.1 Spark SQL發展歷史
7.1.2 DataFrame/Dataset介紹
7.2 Spark SQL執行原理
7.2.1 通用SQL執行原理
7.2.2 SparkSQL執行架構
7.2.3 SQLContext執行原理分析
7.2.4 HiveContext介紹
7.3 使用Hive-Console
7.3.1 編譯Hive-Console
7.3.2 檢視執行計劃
7.3.3 應用Hive-Console
7.4 使用SQLConsole
7.4.1 啟動HDFS和Spark Shell
7.4.2 與RDD互動操作
7.4.3 讀取JSON格式資料
7.4.4 讀取Parquet格式資料
7.4.5 快取演示
7.4.6 DSL演示
7.5 使用Spark SQL CLI
7.5.1 配置並啟動Spark SQL CLI
7.5.2 實戰Spark SQL CLI
7.6 使用Thrift Server
7.6.1 配置並啟動Thrift Server
7.6.2 基本操作
7.6.3 交易資料例項
7.6.4 使用IDEA開發例項
7.7 例項演示
7.7.1 銷售資料分類例項
7.7.2 網店銷售資料統計
7.8 小結
第8章 Spark Streaming
8.1 Spark Streaming簡介
8.1.1 術語定義
8.1.2 Spark Streaming特點
8.2 Spark Streaming程式設計模型
8.2.1 DStream的輸入源
8.2.2 DStream的操作
8.3 Spark Streaming執行架構
8.3.1 執行架構
8.3.2 訊息通訊
8.3.3 Receiver分發
8.3.4 容錯性
8.4 Spark Streaming執行原理
8.4.1 啟動流處理引擎
8.4.2 接收及儲存流資料
8.4.3 資料處理
8.5 例項演示
8.5.1 流資料模擬器
8.5.2 銷售資料統計例項
8.5.3 Spark Streaming+Kafka例項
8.6 小結
第9章 Spark MLlib
9.1 Spark MLlib簡介
9.1.1 Spark MLlib介紹
9.1.2 Spark MLlib資料型別
9.1.3 Spark MLlib基本統計方法
9.1.4 預言模型標記語言
9.2 線性模型
9.2.1 數學公式
9.2.2 線性迴歸
9.2.3 線性支援向量機
9.2.4 邏輯迴歸
9.2.5 線性最小二乘法、Lasso和嶺迴歸
9.2.6 流式線性迴歸
9.3 決策樹
9.4 決策模型組合
9.4.1 隨機森林
9.4.2 梯度提升決策樹
9.5 樸素貝葉斯
9.6 協同過濾
9.7 聚類
9.7.1 K-means
9.7.2 高斯混合
9.7.3 快速迭代聚類
9.7.4 LDA
9.7.5 二分K-means
9.7.6 流式K-means
9.8 降維
9.8.1 奇異值分解降維
9.8.2 主成分分析降維
9.9 特徵提取和變換
9.9.1 詞頻―逆文件頻率
9.9.2 詞向量化工具
9.9.3 標準化
9.9.4 範數化
9.10 頻繁模式挖掘
9.10.1 頻繁模式增長
9.10.2 關聯規則挖掘
9.10.3 PrefixSpan
9.11 例項演示
9.11.1 K-means聚類演算法例項
9.11.2 手機簡訊分類例項
9.12 小結
第10章 Spark GraphX
10.1 GraphX介紹
10.1.1 圖計算
10.1.2 GraphX介紹
10.1.3 發展歷程
10.2 GraphX實現分析
10.2.1 GraphX圖資料模型
10.2.2 GraphX圖資料儲存
10.2.3 GraphX圖切分策略
10.2.4 GraphX圖操作
10.3 例項演示
10.3.1 圖例演示
10.3.2 社群發現演示
10.4 小結
第11章 SparkR
11.1 概述
11.1.1 R語言介紹
11.1.2 SparkR介紹
11.2 SparkR與DataFrame
11.2.1 DataFrames介紹
11.2.2 與DataFrame的相關操作
11.3 編譯安裝SparkR
11.3.1 編譯安裝R語言
11.3.2 安裝SparkR執行環境
11.3.3 安裝SparkR
11.3.4 啟動並驗證安裝
11.4 例項演示
11.5 小結
第12章 Alluxio
12.1 Alluxio簡介
12.1.1 Alluxio介紹
12.1.2 Alluxio系統架構
12.1.3 HDFS與Alluxio
12.2 Alluxio編譯部署
12.2.1 編譯Alluxio
12.2.2 單機部署Alluxio
12.2.3 叢集模式部署Alluxio
12.3 Alluxio命令列使用
12.3.1 介面說明
12.3.2 介面操作示例
12.4 例項演示
12.4.1 啟動環境
12.4.2 Alluxio上執行Spark
12.4.3 Alluxio上執行MapReduce
12.5 小結
本書附錄部分請到博文視點網站下載www.broadview.com.cn/30236。
相關文章
- 圖解css3:核心技術與案例實戰.2.1 認識CSS選擇器圖解CSSS3
- 圖解css3:核心技術與案例實戰.3.1 CSS3邊框簡介圖解CSSS3
- Flutter核心技術與實戰Flutter
- 機器學習 - 決策樹:技術全解與案例實戰機器學習
- Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰PythonSpark大資料
- 解碼知識圖譜:從核心概念到技術實戰
- Flutter核心技術與實戰 11 | 生命週期Flutter
- 《Python核心技術與實戰》筆記3Python筆記
- Apache Spark技術實戰之6 -- spark-submit常見問題及其解決ApacheSparkMIT
- Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰PythonSpark大資料
- Python技術棧與Spark交叉資料分析雙向整合進階實戰--大資料ML樣本集案例實戰PythonSpark大資料
- Kafka核心技術與實戰-胡夕-極客時間Kafka
- Python核心技術與實戰-景霄-極客時間Python
- Docker 核心技術與實現原理Docker
- 瑞技與Digital Realty簽署戰略合作備忘錄Git
- 深度強化學習核心技術實戰強化學習
- 深度學習DeepLearning核心技術實戰深度學習
- 《深度學習Python》核心技術實戰深度學習Python
- 《HTML5遊戲程式設計核心技術與實戰》一第2章 Canvas繪圖HTML遊戲程式設計Canvas繪圖
- 深度學習核心技術實踐與圖神經網路新技術應用深度學習神經網路
- Java RMI技術詳解與案例分析Java
- 美團智慧客服核心技術與實踐
- Apache Spark技術實戰之3 -- Spark Cassandra Connector的安裝和使用ApacheSpark
- 大型網站技術架構——核心原理與案例分析(二)網站架構
- 大型網站技術架構——核心原理與案例分析(一)網站架構
- 精通 Python 網路爬蟲:核心技術、框架與專案實戰Python爬蟲框架
- 《HTML5遊戲程式設計核心技術與實戰》—1.3小結HTML遊戲程式設計
- 《HTML5遊戲程式設計核心技術與實戰》——2.8小結HTML遊戲程式設計
- Apache Spark技術實戰之4 -- 利用Spark將json檔案匯入CassandraApacheSparkJSON
- 大型網站技術架構:核心原理與案例分析筆記網站架構筆記
- Apache Spark技術實戰之5 -- SparkR的安裝及使用ApacheSpark
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 《Linux核心技術實戰課》總結一:PageCacheLinux
- Elasticsearch核心技術與實戰-阮一鳴-極客時間-返現優惠Elasticsearch
- Swift核心技術與實戰-張傑-極客時間-返現24元Swift
- 《HTML5遊戲程式設計核心技術與實戰》一1.3小結HTML遊戲程式設計
- Flutter核心技術與實戰 04 | Flutter區別於其他方案的關鍵技術是什麼?Flutter
- 備忘錄:hadoop技術一點積累Hadoop