極客時間出品的《大規模資料處理實戰》由蔡元楠所作,蔡元楠是Google Brain資深工程師,《大規模資料處理實戰》課程作者。本專欄課程通過實戰帶你瞭解 Google 的大規模資料處理技術與應用。
大規模資料處理實戰課程背景
若從Google對外發布“三駕馬車”論文開始算的話,大資料相關的技術已經走過了近二十年。
MapReduce、Hadoop、Storm、Spark……這些名字你一定不會陌生。沒錯,它們都是用於處理大規模資料的技術。這還只是其中的一部分,我們可以繼續往後列:Kafka、Google Cloud Dataflow、Flink、Beam…
日新月異的大規模資料處理技術給我們帶來了巨大挑戰。但真正困擾我們的,從來都不是能否緊隨技術潮流,而是能否找到最高效的方式,真正解決業務遇到的實際問題。
回到業務場景裡再來談大資料,你可能會遇到這樣的問題:
- MapReduce很經典,可為什麼會被矽谷一線公司淘汰?
- 想要落地Spark,有哪些避坑經驗可以提前掌握?
- Google推崇的Apache Beam真的能夠高效解決現有大資料處理場景的所有問題嗎?
作者簡介
蔡元楠,Google Brain資深工程師,工作領域為AI Healthcare(人工智慧的健康醫療應用), 他領導並開發超大規模資料驅動的全新AI應用與商業模式。在加入Google之前,他分別於哥倫比亞大學和上海交通大學獲計算機碩士和資訊工程學士學位,並曾於哈佛醫學院執行官專案學習。同時,他在Google還兼任C++語言評審以及AI 挑戰賽評委會委員。
在這個專欄裡,蔡元楠將與你分享Google的大資料處理前沿技術和思維。專欄內容側重工程師的個人成長,崇尚矽谷式的技術領導力與批判性思維,作者會通過大量的矽谷最佳實踐,從實際場景出發引導你進行獨立思考,以幫助你從普通工程師成長為大規模資料處理技術專家。
《大規模資料處理實戰》 6 大模組
模組一 直通矽谷大規模資料處理技術
這一模組從現有大規模資料處理技術中的問題入手,帶你討論新技術應有的特點和它可以解決的問題,並告訴你為什麼會這樣設計,最終用一個實戰體驗帶你鞏固頂層設計的知識。
模組二 實戰學習大規模資料處理基本功
萬丈高樓平地起,在上手應用技術之前,有些基礎知識你還需要掌握透徹。這一模組將庖丁解牛矽谷應用例項來講解分散式系統中的核心知識點、現有的資料處理模式和架構等,為你的後續學習打好必備基礎。
模組三 抽絲剝繭剖析Apache Spark設計精髓
打好基礎後,模組三的任務是深入拆解Apache Spark。通過實際案例,帶你上手Spark這個圍繞速度、易用性和複雜分析構建的大資料處理框架,同時引導你深入思考Spark的設計哲學。
模組四 Apache Beam為何能一統江湖
模組四的內容會重點講述Apache Beam的應用場景、模型和執行流程,教會你為什麼它是這麼設計的?優點在哪裡?怎麼解決實際問題?
模組五 決戰 Apache Beam 真實矽谷案例
破解“知易行難”的方法就是實戰。模組五將先帶你瞭解Beam獨一無二的執行模型和應用示例,再用最實際的矽谷一線大廠案例來教會你使用Apache Beam,真正解決你工作中可能會遇到的問題。
模組六 大規模資料處理的挑戰與未來
資料量不會停止增長,5G時代即將到來,未來的資料處理技術又會面臨哪些機遇與挑戰?大規模資料處理在深度學習領域又是如何應用的?這一模組跟你一起探討。
《大規模資料處理實戰》課程目錄
0.從這裡開始,帯你走上矽谷一線系統架構師之路
模組一:直通矽谷大規模資料處理技術
1.為什麼MapReduce會被矽谷一線公司淘汰?
2. MapReduce後誰主沉浮:怎樣設計下一代資料處理技術?
3.大規模資料處理初體驗:怎樣實現大型電商熱銷榜?
模組二:實戰學習大規模資料處理基本功
4.分散式系統(上):如何用服務等級協議SLA來評估你的系統?
5.分散式系統(下):架構師不得不知的三大指標
6.如何區分批處理還是流處理?
7.Workflow設計模式:讓你在大規模資料世界中君臨天下
8.釋出/訂閱模式:流處理架構中的瑞士軍刀
9. CAP定理:三選二,架構師必須學會的取捨
10.Lambda架構:Twitte「千億級實時資料分析架構背後的倚天劍
11.Kappa架構:使用Kafka鍛造的屠龍刀
模組三:抽絲剝繭剖析Apache Spark設計精髓
12. Spark的獨有優勢:為什麼世界需要Spark?
13.彈性分散式資料集:Spark大廈的地基為何如此設計(上)
14.彈性分散式資料集:Spark大廈的地基為何如此設計(下)
15.Spark SQL: Spark資料查詢的利器
16.如何用Spark DataFrame API進行實時資料分析?
17.Spark Streaming: Spark 的實時流計算 API
18. WordCount:從零開始執行你的第一個Spark應用
19.綜合案例實戰:力口州房屋資訊的線性迴歸模型&成年人收入的預測模型
20.更多、更快、更好、更省:例項解析Spark應用程式效能優化
21.深入對比Flink與Spark:幫你的系統設計兩開花
模組四:Apache Beam為何能一統江湖
22.Apache Beam的前世今生
23.站在Google的眉膀上學習Beam程式設計模型
24. PCollection:為何Beam要如此抽象封裝資料?
25. Beam資料轉換操作的抽象方法
26. Pipeline: Beam如何抽象多步驟的資料流水線?
27. Pipeline I/O: Beam資料中轉的設計模式
28.如何設計好一個Beam Pipeline?
29.如何測試Beam Pipeline?
模組五:決戰Apache Beam真實矽谷案例
30. Apache Beam 實戰衝刺:Beam 如何 run everywhere?
31.WordCount Beam Pipeline 實戰
32. Beam Window:打通流處理的任督二脈
33.橫看成嶺側成峰:再戰Streaming WordCount
34. Amazon 熱銷榜 Beam Pipeline 實戰
35.Facebook遊戲實時流處理Beam Rpeline實戰(上)
36.Facebook遊戲實時流處理Beam Rpeline實戰(下)
模組六:大規模資料處理的挑戰與未來
37. 5G時代,如何處理實時超大規模物聯網資料?
38.大規模資料處理在深度學習中如何應用?
39.從SQL到Streaming SQL:突破靜態資料查詢的次元
40.總結與答疑
訂閱價格:
為回報猿人學的粉絲,所有通過我分享的二維碼購買的使用者,請加我微訊號:dismissmewp,備註:返現。
享受完其它優惠後,我再給大家立即返¥12元現金。
我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。
***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***