大資料成神之路

王知無發表於2019-02-10

原文網址 : https://juejin.im/post/5c6036036fb9a049e12aaae1

大資料

大資料成神之路

我是誰？說起這個可就牛逼了我馬雲前同事逍遙子的現同事跟高曉鬆等人在一個App談笑風生的男人額O__O "…~

為什麼有這個文件以前這裡只是幾個txt文件

是我面試騰訊阿里美團等公司大資料開發工程師的過程中總結出來的大資料開發的必知必會的知識點~

公眾號

全網唯一一個從0開始幫助Java開發者轉做大資料領域的公眾號~
公眾號大資料技術與架構或者搜尋import_bigdata關注，大資料學習路線最新更新，已經有很多小夥伴加入了~

但是，我發現，我有必要總結一個大資料開發的進階路線

我知道很多java後端開發同學厭倦CRUD了，但是又不知道大資料這個路線是啥樣的~

這個是我的成長路線~ 現在看起來

當初沒有走錯~

當然啦資料開發有很多方向比如資料倉儲，資料分析

我這裡單純面對資料應用層或者中介軟體方向，也是大資料方向個人成長比較好的一個方向(我自己認為的，你不同意就算了，哈哈)~

這個是我的成長路線

大資料成神之路該系列文章將為希望從事大資料開發或者由後端轉型為大資料開發的工程師們指出需要學習的知識點和路徑，本系列文章同時致敬我曾經在網路上看到無數個Java和大資料系列文章，深受啟發同時也收貨很多。

本系列文章引用了很多或者二次總結了各位前輩的文章，每篇文章後面都給出了引用，本著不重複造輪子的原則，本人會對其中的一些錯誤進行訂正，感謝各位前輩的付出~

本系列文章希望為那些還在資料開發方向迷茫的人領路，文章會持續更新

歡迎關注公眾號‘大資料技術與架構’或者搜尋import_bigdata關注~

*目錄如下(預計更新500+篇文章，已經更新50+篇)：

歡迎關注‘大資料技術與架構’ 微信公眾號，獲取更多關於Spark、flink、hadoop的資料下載。

* Java高階特性增強(多執行緒，併發包) 
* JVM深度解析和麵試點
* 分散式理論基礎和原理
* 分散式理論基礎-Zookeeper的Paxos一致性演算法
* 大資料框架開發基礎-NIO和RPC
* 大資料框架基石之網路通訊-Netty
* Hadoop三駕馬車之Mapreduce
* Hadoop三駕馬車之HDFS 
* Hadoop三駕馬車之Yarn
* OLAP引擎-HiveSQL的高階調優和原理分析
* 離線列式大資料儲存-Hbase的原理和億級資料下的生產應用
* Nosql之王-Redis高階特性和實現原理
* 分散式訊息佇列Kafka原理及與流式計算的整合
* 第三代流式計算引擎-Spark的原理和生產應用(一)
* 第三代流式計算引擎-Spark的原理和生產應用(二)
* 第三代流式計算引擎-Spark的原理和生產應用(三)
* Flink-當前最火的實時計算引擎(一)
* Flink-當前最火的實時計算引擎(二)
* Flink-當前最火的實時計算引擎(三)
* 大資料演算法(一)
* 大資料演算法(二)
複製程式碼

從籍籍無名的一線開發人員到親自架構和主導企業級億級資料流量專案的過程中，作者也曾經作為技術面試官，面試超過幾百人，他們或靦腆，低頭不語，或健談，滔滔不絕。有些同學在面試過程中不僅思路清晰，對大資料領域的知識有全域性概念，且思考有深度；但是也有一些同學有超過5年的開發經驗，卻侷限在自己做的專案中應用的技術，只見樹木，不見森林。每次面試完同學或者去其他公司的應聘後都會仔細總結經驗，和應聘者和麵試官交流，多年下來，積累了一整套大資料開發領域的核心必問點和原始碼閱讀分析的經驗。

硬核文章“硬”在哪裡？

1. 大資料領域核心的面試考察點

你是否有過這樣的困擾？

** 我用Spark開發了N個專案，面試卻被認為根本不懂Spark **
** 我有超過3-5年的大資料開發經驗，面試一問三不知，知識形不成體系 **
** 我在網站買了幾千塊的視訊資料，卻沒有整理過學習過的技術，似懂非懂 **
** 我是Java後端開發，急需突破希望轉行大資料，卻無從下手 **
** 我是應屆生，希望畢業從事大資料開發 ** 如果上面的困擾你中了任何一條，那麼恭喜你，這個專欄就是為你而寫的。在這個專欄裡，多年浸淫大資料開發領域，將會把整個大資料領域核心的考察點，其中包括大資料領域的常用框架和中介軟體，大資料的基礎，面試過程中必問的概念和原理進行整理和講解。

2. 大資料基礎必知必會

大資料需要掌握的語言是什麼？有什麼核心知識點？什麼是CAP？什麼是Quorum機制？大資料的本質無非就是海量資料的計算，查詢與儲存，分散式計算，那麼問題來了，海量資料儲存一般是用什麼檔案系統？目前主流的檔案系統是如何設計的？他們是如何管理原資料的？可靠性和擴充套件性怎麼做的？分散式的概念有哪些？分散式計算中的問題有什麼？這麼多的計算框架他們分別有什麼特點？適合什麼樣的場景？實踐應用有哪些坑？這些框架核心原理和程式碼有哪些？用過redis卻連它的基本資料結構都不清楚？我Spark+kafka賊溜但連PULL和PUSH模式都表達不清？上面的奪命N連問，你害怕了嗎？別怕，作者帶你把他們一一解決。

3. 大資料框架的核心部分原始碼解讀

阿里巴巴面試最喜歡問的一個問題：“你知道XXX的實現原理麼?”

作者曾經被這個問題問的脊背發涼，冷汗直流，後來發奮圖強，認真閱讀過很多優秀框架的原始碼，並在Spark的基礎上結合自己的業務開發了一套實時計算框架。套用網路上的一句話：

在工程師的世界裡，概念、原理都是抽象的，唯有原始碼是具象的。隨著我們閱讀更多的優秀的原始碼，我們的想象力才會更加具象，我們的理解才會更加乾淨。

在本專欄中，每個章節都包含核心原始碼解讀，讓讀者不僅知其然且知其所以然，以後在以後面對面試官的時候可以和他侃侃而談。

4. 模擬真實場景下的面試問題和擴充

眾所周知，BAT等一二線公司有自己的簡歷庫，面試人每次面試都有記錄，比如阿里每次投遞簡歷到第二次投遞至少半年，甚至有些公司多次面試會上系統的黑名單，這些有限的面試機會值得倍加珍惜。作為面試過幾乎所有一二線公司的"老炮"，曾經拿到過N多offer，每個章節設計了一個問題提問環節，模擬真實面試場景下面試官的提問，我們該如何作答，回答如何”戲感“實足，又不生硬，不僅把自己的乾貨展示給面試官還能稍微做些擴充，讓面試官眼前一亮。

專欄都有哪些內容?

作者該專欄目前設計了20幾個大章節，涵蓋了目前大資料開發領域一線公司主流的技術框架和麵試考察點，每個小章節又包含了架構原理和原始碼解析，實際專案中的應用和常見的坑，面試關注點以及如何作答三個小部分，每一篇文章都會很長很長，做到圖文並茂。希望大家耐下心來跟我一篇一篇的看下來，成為offer收割機，爭取到更大的公司更大的平臺的機會。

專欄大綱預告

	* Java高階特性增強(多執行緒，併發包) 
	* JVM深度解析和麵試點
	* 分散式理論基礎和原理
	* 分散式理論基礎-Zookeeper的Paxos一致性演算法
	* 大資料框架開發基礎-NIO和RPC
	* 大資料框架基石之網路通訊-Netty
	* Hadoop三駕馬車之Mapreduce
	* Hadoop三駕馬車之HDFS 
	* Hadoop三駕馬車之Yarn&emsp;
	* OLAP引擎-HiveSQL的高階調優和原理分析
	* 離線列式大資料儲存-Hbase的原理和億級資料下的生產應用
	* Nosql之王-Redis高階特性和實現原理
	* 分散式訊息佇列Kafka原理及與流式計算的整合
	* 第三代流式計算引擎-Spark的原理和生產應用(一)
	* 第三代流式計算引擎-Spark的原理和生產應用(二)
	* 第三代流式計算引擎-Spark的原理和生產應用(三)
	* Flink-當前最火的實時計算引擎(一)
	* Flink-當前最火的實時計算引擎(二)
	* Flink-當前最火的實時計算引擎(三)
	* 大資料演算法(一)
	* 大資料演算法(二)
複製程式碼

第一章 Java高階特性增強(多執行緒，併發包)

大多數大資料框架都是Java開發的，併發和多執行緒是大資料框架的基礎，也是大資料面試的重災區，作者會使用圖文的方式講解多執行緒和併發相關的原理和生產實踐。

第二章 JVM是Javaer繞不過去的坎

我相信大家已經有所體會，JVM已經成了Java界區分一個開發者是否基礎紮實的試金石，隨著Java版本的更新迭代，JVM也在不斷進化，作者帶你揭開JVM的真容。

第三章分散式理論

所謂大道至簡，萬變不離其宗，分散式理論好比習武扎馬步，是修習上乘武學的基本功。

第四章 Zookeeper

本章將全面剖析Zookeeper的原理和實現，它在Hadoop等大資料框架中扮演者不可或缺的角色。

第五章 NIO和RPC

NIO是和RPC是大資料框架資料通訊的普遍採用的方案，作者將深入淺出的介紹其原理並帶大家實現簡單的通訊框架。

第六章 Netty

當作者打出Netty的時候，如果你是一個Java開發，卻沒有聽說過，那麼恭喜你面試第一輪就可能被擋在門外。Netty是Java實現的，提供非同步的、事件驅動的網路應用程式框架和工具，它的高效能和高可靠性已經被無數個應用驗證了，任何一個大資料框架都離不開Netty。

第七、八、九章 Hadoop的三駕馬車

Hadoop無需多言，是大多數人接觸大資料最先接觸的框架，基於Hadoop已經發展出來了龐大的大資料生態，幾乎所有的分散式理論都在Hadoop上有所實踐。

第十章 HiveSql

Hive架構在Hadoop之上，使得查詢和分析資料方便。提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行，這一章涉及到了HiveSql的原理和高階調優，也是面試的重災區。

第十一章 Hbase的原理和億級資料下的生產應用

作為列式資料庫，他和傳統的資料庫有什麼區別，在生產實踐中應該注意哪些事項，將在這一章節有詳細講解。

第十二章 Hbase的原理和億級資料下的生產應用

作為列式資料庫，他和傳統的資料庫有什麼區別，在生產實踐中應該注意哪些事項，將在這一章節有詳細講解。

第十三章 Redis是大資料領域最常用的快取資料庫

在大資料分析框架中，Redis扮演著儲存計算結果，快速讀取的角色，本章將全面介紹Redis和其中複雜的資料結構實現，並帶讀者瞭解Redis的新特性。

第十五、十六、十七章 Spark

作者用三章來介紹Spark架構，Spark Streaming 和Structured Streaming，裡面包含了Spark核心的原理實現和生產實踐，有圖有文，通俗易懂且有深度。

第十八、十九、二十章 Flink-當前最火的實時計算引擎

Flink是近幾年熱度最高的實時計算引擎，包含了諸多特性，是真正的流式計算引擎，本章節包含了Flink的基本架構和程式設計模型以及最生產上的應用案例。

第二十一、二十二章大資料開發中的演算法

大資料演算法是面試必備技能，作者將講解常見的大資料演算法面試題目，例如海量資料求TopN，Bitmap和Bloomfilter的應用等。

看到這裡你是不是怕了? 不要怕！在寫作的過程中，作者會做到圖文並茂，通俗易懂，乾貨滿滿，不講廢話，不湊篇幅。如果發現某個章節東西較多，作者會拆分成小節，做到不遺漏重要知識點。

作者寄語

學習的過程是枯燥無味也是充滿樂趣的，套用老貓的一句話：

他背起雙手看著柳十歲，平靜而認真地說道：“大道險且漫長，少有同行到最後，你已上路，更須專心，此去經年，忘卻乃自然之事，莫刻意記起，那般不美”。

Java工程師成神之路
2018-04-11
Java工程師
自動化測試成神之路
2020-07-28
Java成神之路：第三帖----資料結構與演算法之佇列
2020-09-15
Java資料結構演算法佇列
Java工程師成神之路（2018修訂版）
2018-03-23
Java工程師
大資料開發之路：hive篇
2019-05-10
大資料Hive
四說大資料時代“神話”：從大資料到深資料
2019-04-12
大資料
前端成神之路-移動web開發_流式佈局
2020-11-28
前端Web
javascript成神之路(4)：深入理解this關鍵字，是的就是this
2018-07-11
JavaScript
大資料之路 ——（一）演算法建模中的資料清洗
2021-08-05
大資料演算法
大資料學習之路——java基礎（二）
2019-04-01
大資料Java
新手測試開發的成神之路：面試歷程分享
2021-08-03
面試
打造“資料金字塔”，小米大資料平臺建設之路
2019-01-11
大資料
夏軍：小米大資料整合架構演化之路
2018-11-29
大資料架構
大資料學習之路——java物件導向（二）
2019-04-03
大資料Java物件
大資料運維集大成者修行之路
2024-10-09
大資料運維
從誕生到成長！數家名企大資料平臺應用演進之路解析！
2018-10-22
大資料
今日修真成神！《太古神王》手遊資料片“封神之路”上線
2019-09-04
資料分析的三大組成部分
2021-09-11
《Java工程師成神之路-基礎篇》JVM——常用Java命令（已完結）
2018-10-13
Java工程師JVM
《遊戲王OCG》的20年——經典桌遊的“成神”之路
2019-11-08
遊戲
前端成神之路-移動web開發之響應式佈局
2020-11-28
前端Web
嗶哩嗶哩大資料平臺建設之路——資料安全篇
2023-03-13
大資料
大資料應成為大學課程的重中之重
2019-05-04
大資料
【工業大資料】工廠大資料之資料來源分析；如何挖掘並駕馭大資料的價值，成為“大資料企業”？
2018-03-20
大資料
新年開篇——開啟大資料之路(一)【vmware配置】
2019-01-03
大資料
科大訊飛的語音雲大資料實踐之路
2019-03-01
大資料
震驚，零開始規劃大資料學習之路！
2019-01-10
大資料
數字絲綢之路大資料應用需求盤點
2018-06-26
大資料
《Java工程師成神之路-基礎篇》Java基礎知識——String相關
2018-10-22
Java工程師
《Java工程師成神之路-基礎篇》JVM——Java記憶體模型(已完結)
2018-10-11
Java工程師JVM記憶體模型
完美！位元組高階工程師熬夜梳理的2020版Java成神之路指南
2020-10-27
工程師Java
如何成為一名大資料工程師？
2018-12-25
大資料工程師
成神之路！快取+MyBatis+MySQL+Spring全家桶+分散式技術實戰合集
2020-10-15
快取MyBatisMySqlSpring分散式
大資料學習之路（跟著大神學習一波）
2018-09-16
大資料
大資料一體化：邁向人工智慧的“必由之路”
2018-04-24
大資料人工智慧
通往資料科學之路
2020-06-16
資料科學
金山雲資料庫之路
2022-06-16
資料庫
DKHadoop大資料開發框架的構成模組
2018-10-19
Hadoop大資料框架

大資料成神之路