【備忘】《圖解Spark 核心技術與案例實戰》PDF

qq_38472089發表於2018-09-01

第1章  Spark及其生態圈概述 
1.1  Spark簡介 
1.1.1  什麼是Spark 
1.1.2  Spark與MapReduce比較 
1.1.3  Spark的演進路線圖 
1.2  Spark生態系統 
1.2.1  Spark Core 
1.2.2  Spark Streaming 
1.2.3  Spark SQL 
1.2.4  BlinkDB 
1.2.5  MLBase/MLlib 
1.2.6  GraphX 
1.2.7  SparkR 
1.2.8  Alluxio 
1.3  小結 
第2章  搭建Spark實戰環境 
2.1  基礎環境搭建 
2.1.1  搭建叢集樣板機 
2.1.2  配置叢集環境 
2.2  編譯Spark原始碼 
2.2.1  配置Spark編譯環境 
2.2.2  使用Maven編譯Spark 
2.2.3  使用SBT編譯Spark 
2.2.4  生成Spark部署包 
2.3  搭建Spark執行叢集 
2.3.1  修改配置檔案 
2.3.2  啟動Spark 
2.3.3  驗證啟動 
2.3.4  第一個例項 
2.4  搭建Spark實戰開發環境 
2.4.1  CentOS中部署IDEA 
2.4.2  使用IDEA開發程式 
2.4.3  使用IDEA閱讀原始碼 
2.5  小結 

第二篇  核心篇
第3章  Spark程式設計模型 
3.1  RDD概述 
3.1.1  背景 
3.1.2  RDD簡介 
3.1.3  RDD的型別 
3.2  RDD的實現 
3.2.1  作業排程 
3.2.2  解析器整合 
3.2.3  記憶體管理 
3.2.4  檢查點支援 
3.2.5  多使用者管理 
3.3  程式設計介面 
3.3.1  RDD分割槽(Partitions) 
3.3.2  RDD首選位置(PreferredLocations) 
3.3.3  RDD依賴關係(Dependencies) 
3.3.4  RDD分割槽計算(Iterator) 
3.3.5  RDD分割槽函式(Partitioner) 
3.4  建立操作 
3.4.1  並行化集合建立操作 
3.4.2  外部儲存建立操作 
3.5  轉換操作 
3.5.1  基礎轉換操作 
3.5.2  鍵值轉換操作 
3.6  控制操作 
3.7  行動操作 
3.7.1  集合標量行動操作 
3.7.2  儲存行動操作 
3.8  小結 
第4章  Spark核心原理 
4.1  訊息通訊原理 
4.1.1  Spark訊息通訊架構 
4.1.2  Spark啟動訊息通訊 
4.1.3  Spark執行時訊息通訊 
4.2  作業執行原理 
4.2.1  概述 
4.2.2  提交作業 
4.2.3  劃分排程階段 
4.2.4  提交排程階段 
4.2.5  提交任務 
4.2.6  執行任務 
4.2.7  獲取執行結果 
4.3  排程演算法 
4.3.1  應用程式之間 
4.3.2  作業及排程階段之間 
4.3.3  任務之間 
4.4  容錯及HA 
4.4.1  Executor異常 
4.4.2  Worker異常 
4.4.3  Master異常 
4.5  監控管理 
4.5.1  UI監控 
4.5.2  Metrics 
4.5.3  REST 
4.6  例項演示 
4.6.1  計算年降水例項 
4.6.2  HA配置例項 
4.7  小結 
第5章  Spark儲存原理 
5.1  儲存分析 
5.1.1  整體架構 
5.1.2  儲存級別 
5.1.3  RDD儲存呼叫 
5.1.4  讀資料過程 
5.1.5  寫資料過程 
5.2  Shuffle分析 
5.2.1  Shuffle簡介 
5.2.2  Shuffle的寫操作 
5.2.3  Shuffle的讀操作 
5.3  序列化和壓縮 
5.3.1  序列化 
5.3.2 壓縮 
5.4  共享變數 
5.4.1  廣播變數 
5.4.2  累加器 
5.5  例項演示 
5.6  小結 
第6章  Spark執行架構 
6.1  執行架構總體介紹 
6.1.1  總體介紹 
6.1.2  重要類介紹 
6.2  本地(Local)執行模式 
6.2.1  執行模式介紹 
6.2.2  實現原理 
6.3  偽分佈(Local-Cluster)執行模式 
6.3.1  執行模式介紹 
6.3.2  實現原理 
6.4  獨立(Standalone)執行模式 
6.4.1  執行模式介紹 
6.4.2  實現原理 
6.5  Yarn執行模式 
6.5.1  YARN執行框架 
6.5.2  YARN-Client執行模式介紹 
6.5.3  YARN-Client 執行模式實現原理 
6.5.4  YARN-Cluster執行模式介紹 
6.5.5  YARN-Cluster 執行模式實現原理 
6.5.6  YARN-Client與YARN-Cluster對比 
6.6  Mesos執行模式 
6.6.1  Mesos介紹 
6.6.2  粗粒度執行模式介紹 
6.6.3  粗粒度實現原理 
6.6.4  細粒度執行模式介紹 
6.6.5  細粒度實現原理 
6.6.6  Mesos粗粒度和Mesos細粒度對比 
6.7  例項演示 
6.7.1  獨立執行模式例項 
6.7.2  YARN-Client例項 
6.7.3  YARN-Cluster例項 
6.8  小結 

第三篇  元件篇
第7章  Spark SQL 
7.1  Spark SQL簡介 
7.1.1  Spark SQL發展歷史 
7.1.2  DataFrame/Dataset介紹 
7.2  Spark SQL執行原理 
7.2.1  通用SQL執行原理 
7.2.2  SparkSQL執行架構 
7.2.3  SQLContext執行原理分析 
7.2.4  HiveContext介紹 
7.3  使用Hive-Console 
7.3.1  編譯Hive-Console 
7.3.2  檢視執行計劃 
7.3.3  應用Hive-Console 
7.4  使用SQLConsole 
7.4.1  啟動HDFS和Spark Shell 
7.4.2  與RDD互動操作 
7.4.3  讀取JSON格式資料 
7.4.4  讀取Parquet格式資料 
7.4.5  快取演示 
7.4.6  DSL演示 
7.5  使用Spark SQL CLI 
7.5.1  配置並啟動Spark SQL CLI 
7.5.2  實戰Spark SQL CLI 
7.6  使用Thrift Server 
7.6.1  配置並啟動Thrift Server 
7.6.2  基本操作 
7.6.3  交易資料例項 
7.6.4  使用IDEA開發例項 
7.7  例項演示 
7.7.1  銷售資料分類例項 
7.7.2  網店銷售資料統計 
7.8  小結 
第8章  Spark Streaming 
8.1  Spark Streaming簡介 
8.1.1  術語定義 
8.1.2  Spark Streaming特點 
8.2  Spark Streaming程式設計模型 
8.2.1  DStream的輸入源 
8.2.2  DStream的操作 
8.3  Spark Streaming執行架構 
8.3.1  執行架構 
8.3.2  訊息通訊 
8.3.3  Receiver分發 
8.3.4  容錯性 
8.4  Spark Streaming執行原理 
8.4.1  啟動流處理引擎 
8.4.2  接收及儲存流資料 
8.4.3  資料處理 
8.5  例項演示 
8.5.1  流資料模擬器 
8.5.2  銷售資料統計例項 
8.5.3  Spark Streaming+Kafka例項 
8.6  小結 
第9章  Spark MLlib 
9.1  Spark MLlib簡介 
9.1.1  Spark MLlib介紹 
9.1.2  Spark MLlib資料型別 
9.1.3  Spark MLlib基本統計方法 
9.1.4  預言模型標記語言 
9.2  線性模型 
9.2.1  數學公式 
9.2.2  線性迴歸 
9.2.3  線性支援向量機 
9.2.4  邏輯迴歸 
9.2.5  線性最小二乘法、Lasso和嶺迴歸 
9.2.6  流式線性迴歸 
9.3  決策樹 
9.4  決策模型組合 
9.4.1  隨機森林 
9.4.2  梯度提升決策樹 
9.5  樸素貝葉斯 
9.6  協同過濾 
9.7  聚類 
9.7.1  K-means 
9.7.2  高斯混合 
9.7.3  快速迭代聚類 
9.7.4  LDA 
9.7.5  二分K-means 
9.7.6  流式K-means 
9.8  降維 
9.8.1  奇異值分解降維 
9.8.2  主成分分析降維 
9.9  特徵提取和變換 
9.9.1  詞頻―逆文件頻率 
9.9.2  詞向量化工具 
9.9.3  標準化 
9.9.4  範數化 
9.10  頻繁模式挖掘 
9.10.1  頻繁模式增長 
9.10.2  關聯規則挖掘 
9.10.3  PrefixSpan 
9.11  例項演示 
9.11.1  K-means聚類演算法例項 
9.11.2  手機簡訊分類例項 
9.12  小結 
第10章  Spark GraphX 
10.1  GraphX介紹 
10.1.1  圖計算 
10.1.2  GraphX介紹 
10.1.3  發展歷程 
10.2  GraphX實現分析 
10.2.1  GraphX圖資料模型 
10.2.2  GraphX圖資料儲存 
10.2.3  GraphX圖切分策略 
10.2.4  GraphX圖操作 
10.3  例項演示 
10.3.1  圖例演示 
10.3.2  社群發現演示 
10.4  小結 
第11章  SparkR 
11.1  概述 
11.1.1  R語言介紹 
11.1.2  SparkR介紹 
11.2  SparkR與DataFrame 
11.2.1  DataFrames介紹 
11.2.2  與DataFrame的相關操作 
11.3  編譯安裝SparkR 
11.3.1  編譯安裝R語言 
11.3.2  安裝SparkR執行環境 
11.3.3  安裝SparkR 
11.3.4  啟動並驗證安裝 
11.4  例項演示 
11.5  小結 
第12章  Alluxio 
12.1  Alluxio簡介 
12.1.1  Alluxio介紹 
12.1.2  Alluxio系統架構 
12.1.3  HDFS與Alluxio 
12.2  Alluxio編譯部署 
12.2.1  編譯Alluxio 
12.2.2  單機部署Alluxio 
12.2.3  叢集模式部署Alluxio 
12.3  Alluxio命令列使用 
12.3.1  介面說明 
12.3.2  介面操作示例 
12.4  例項演示 
12.4.1  啟動環境 
12.4.2  Alluxio上執行Spark 
12.4.3  Alluxio上執行MapReduce 
12.5  小結 

本書附錄部分請到博文視點網站下載www.broadview.com.cn/30236。

 

本文轉載自:http://javaxxz.com/thread-370464-1-1.html

相關文章