好程式設計師大資料教程分享Spark快速入門(72集影片+原始碼+筆記)

好程式設計師IT發表於2019-11-23

好程式設計師大資料教程分享 Spark 快速入門( 72 集影片 + 原始碼 + 筆記)

1、 什麼是Spark?

Apache Spark是專為大規模資料處理而設計的快速通用的計算引擎 Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料探勘與機器學習等需要迭代的MapReduce的演算法。

 

2、 Spark具有哪些優點?

1)高階 API 剝離了對叢集本身的關注,Spark 應用開發者可以專注於應用所要做的計算本身。

2)Spark 很快,支援互動式計算和複雜演算法。

3)Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文字處理、機器學習等,而在 Spark 出現之前,我們一般需要學習各種各樣的引擎來分別處理這些需求。

 

3、 Spark計算方法

1)Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小專案。Bagel自帶了一個例子,實現了Google的PageRank演算法。

2)當下Spark已不止步於實時計算,目標直指通用大資料處理平臺,而終止Spark,開啟SparkSQL或許已經初見端倪。

3)近年來國內外開始關注在 Spark 平臺上如何實現各種機器學習和資料探勘並行化演算法設計。為了方便一般應用領域的資料分析人員使用所熟悉的 R 語言在 Spark 平臺上完成資料分析,Spark 提供了一個稱為 SparkR 的程式設計介面,使得一般應用領域的資料分析人員可以在 R 語言的環境裡方便地使用 Spark 的並行化程式設計介面和強大計算能力。

 

4、2019好程式設計師大資料教程-如何 快速入門Spark 72集影片+原始碼+筆記)

1 本課適用人群:

具有一定大資料基礎的人群

2) 學完本影片能掌握什麼?

本節課能夠掌握Spark的環境搭建,任務排程流程,以及RDD程式碼的應用。

(3) 課程目錄:

1章 Spark知識講解

01_為什麼學習Spark

02_Spark和MapReduce的對比

03_Spark框架體系

04_Spark下載

05.Spark執行模式介紹

06.Spark叢集安裝

07.Spark程式執行流程

08.Spark相關名詞解釋

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2和Spark1.6Shell對比

 

2章 Maven和IDEA

12_Maven和IDEA下載

13_Maven安裝

14_IDEA安裝

15_IDEA中配置Maven

16_Scala環境安裝和IDEA中配置Scala外掛

17_IDEA建立Spark工程

18_Spark開發WordCount程式

19_Spark程式打包

20_Spark叢集執行打包程式

 

3章 RDD知識講解

21_RDD概念

22_RDD執行流程

23_RDD屬性

24_RDD彈性

25_RDD的兩種建立

26_RDD程式設計API

 

4章 Transformation演算法

27_Transformation演算法

28_Action演算法

29_Map

30_filter

31_flatMap

32_sample

33 union

34 intersection

35 distinct

36 join

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

 

5章 Action演算法

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_其他運算元之countByKey

62_其他運算元之countByValue

63_其他運算元之filterByRange

64_其他運算元之flatMapValues

65_其他運算元之foreachPartition

66_其他運算元之keyBy

67_其他運算元之keys和values

68_其他運算元之collectAsMap

69_RDD函式傳遞

70_RDD的依賴關係

71_RDD任務劃分

72_Lineage血統

(4) 免費影片獲取方法:

方法一: 關注 微信公眾號“好程式設計師”(微訊號: qfhcxy 回覆“DT1”到本公眾號, 即可 免費領取 2019好程式設計師大資料之快速入玩轉Spark~連載(72集)》 影片教程 以及免費的 原始碼、筆記、配置軟體 ”!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2665443/,如需轉載,請註明出處,否則將追究法律責任。

相關文章