Hadoop生態系統應用狀況大調查：網際網路篇！

國內外對Hadoop生態系統的生存狀況爭論不休，既然如此，我們不妨摸底調查一番，看看國內一線網際網路公司(具備自我搭建大資料平臺能力的廠商)的大資料平臺是如何搭建的?是否基於Hadoop生態系統?Hadoop的存在感有多少?龐大的Hadoop生態系統中又有哪些元件真正脫穎而出了呢?(本文內容來源於公開資料整理)

BAT之阿里巴巴

　　如果要論資料，恐怕只有以電商起家的阿里巴巴才能擁有如此豐富且龐大的資料。有業務場景也有技術能力，阿里巴巴的大資料實力不容置疑。目前，阿里巴巴對外提供基於阿里雲的大資料服務。眾多大資料產品中，筆者看到了Elasticsearch的身影。

　　在資料分析和搜尋等方面，阿里提供基於開源Elasticsearch及商業版X-Pack外掛。Elasticsearch想必大家都不陌生，是繼Hadoop之後非常受歡迎的後起之秀。阿里巴巴的大資料解決方案中會有它的出現一點也不讓人驚訝，有了Elasticsearch還有Hadoop的用武之地嗎?

　　在阿里巴巴早年的數加平臺(整個大資料部分統稱為數加)介紹中，阿里雲大資料事業部數加平臺技術負責人陳廷曾表示，阿里統一的自主可控的大資料平臺是在Hadoop的基礎上構建的，這套平臺支撐了阿里很重要的一些業務，可見Hadoop對於阿里大資料平臺的構建起到了至關重要的作用。

BAT之騰訊

　　騰訊的資料量雖然也不小，但多來源於社交資料。在離線資料處理的介紹中，我們看到騰訊大資料套件基於Hadoop體系的MapReduce、HIVE、PIG、Spark技術向企業使用者提供強大的資料離線批處理能力。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　除此之外，Hadoop生態體系還包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

　　很多人認為Hadoop生態體系中實力最弱的就是MapReduce，然而目前的騰訊大資料體系中仍然可以看到MapReduce的身影，不知道之後是否會考慮更換。

BAT之百度

　　百度的資料與上述兩家又不同，百度的資料來源多為搜尋資料，依託自身百度引擎。進入百度的大資料產品頁面，可以發現百度主打的招牌是“智慧”。百度的大資料產品中應用了大規模的機器學習、深度學習等能力。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　百度的大資料基礎套件“魯班”的基礎架構如下，可以很直觀地看到，百度大資料基礎套件中的Kafka和YARN均來源於Hadoop生態系統。

京東：

　　京東的電商業務和物流業務如今也是越做越大，京東大資料部為了解決公司越來越廣泛的實時業務需求，推出了一整套技術解決方案——JRDW(JD Realtime Data Warehouse)。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　根據介紹，整個大資料平臺有不少開源元件的加入，京東大資料部門在開源元件的基礎上又針對其缺點進行了部分調整，形成了最終框架。在後期的發展中，京東意識到如果要搭建一個穩定可靠的實時任務執行平臺很重要，通過對Storm、Hadoop、HBase、Kafka等的研究，京東自主開發了高可用排程平臺Magpie。

　　圖中可以很直接地看出Hadoop的身影，明顯Hadoop對其大資料平臺架構的搭建過程起到了啟發作用。

美團：

　　美團的大資料平臺主要支撐了美團的到店餐飲、到店綜合、酒店旅遊、貓眼電影、外賣配送等業務，中間則是基礎資料部，最下層基於美團雲。如果將基礎資料部放大，基本如下圖所示：

Hadoop生態系統應用狀況大調查：網際網路篇！

　　離線計算部分是基於Hadoop的資料倉儲資料應用。具體到元件，基礎服務層有HDFS和YARN的參與，計算引擎層有HBase、Kylin、Hive、Spark、Presto等來自Hadoop生態系統的元件參與。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　根據一年前的統計資料，這套平臺有42P+總儲存量，每天有15萬個MapReduce和Spark任務，現在想必資料量和複雜度已經再一次升高了。

網易：

　　網易的一站式大資料管理和應用開發平臺——網易猛獁，覆蓋了大規模資料儲存與計算、應用開發、資料管理與整合等場景。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　在其公佈的大資料架構圖中，我們可以看到底層基本完全構建於Hadoop生態系統，資料整合、資料儲存、資源管理都和Hadoop生態系統有關。這套系統支援HDFS、Hbase、Kudu等從GB到PB級別的儲存方案，支援Hive和MapReduce等批量計算、Spark記憶體計算、Kylin多維分析等多種計算方案。

今日頭條：

　　2014年之前，今日頭條並沒有專門的人負責做資料。隨著活躍使用者數的迅猛增長，各種各樣的需求不斷，今日頭條意識到幾個資料工程師單打獨鬥根本解決不了問題，於是資料平臺團隊成立了。

　　該團隊將Hadoop、Hive、Spark和Kylin等封裝成工具，將工具與分析模式相結合包裝成解決方案以提供給業務部門。在資料生成與採集方面，今日頭條使用Spark實現類Sqoop的分散式抓取;在資料傳輸方面，採用Kafka作為資料匯流排，連線線上和離線系統;在資料計算方面，今日頭條使用了Spark SQL和Hive;在Cube類查詢引擎，今日頭條已經成為Kylin國內最大使用使用者之一。

滴滴：

　　作為目前最大且最活躍的獨角獸企業，滴滴的大資料架構部門十分年輕，成立時間僅一年有餘。去年，滴滴宣佈向各地交通管理部門開放“滴滴交通訊息平臺”資料，而滴滴當時的平臺日訂單量已經超過2000萬，流量高峰期每分鐘接到的使用者需求高達兩萬次。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　從圖中不難看出，滴滴大資料平臺分為多個組成部分，資料加工和資料採集兩階段明顯用到了不少Hadoop生態系統的元件，資料加工部分完全依託Hadoop生態系統。

知乎

　　截止2017年8月，知乎註冊使用者數破億，全站DAU達2600萬，月瀏覽量180億......知乎大資料架構分為資料採集、資料計算、資料服務和資料產品層。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　對於很多公司都會出現的MySQL資料實時查詢需求，知乎調研了Hive和HBase，但最後選擇了將BinLog實時打入Kafka，起一套Spark Streaming程式，將資料寫入Kudu，這樣做的效能會更高一些。雖然這部分元件來源Hadoop生態系統，但知乎內部架構師曾表示公司正在考慮採用TiDB。

新浪

　　新浪同樣掌握著大量社交資料，在之前有關新浪大資料體系架構的介紹中，我們可以瞭解到新浪的技術架構同樣基於Hadoop生態圈，最下面是日誌接受傳輸，然後進入Hadoop層，在這之上是ETL資料的整合，隨後是中央資料倉儲，資料探勘、實時統計與計算等操作。

　　近幾年，隨著新技術的不斷髮展，新浪的大資料體系也在不斷改變，但Hadoop生態體系依舊佔據著重要位置。

58同城

　　58的大資料體系主要分為資料應用、資料應用平臺、資料基礎平臺三層。在接入層，58使用了Canal/Sqoop解決資料接入問題，另一部分資料使用Flume，其中Sqoop和Flume均來源於Hadoop生態體系;儲存層全是熟人：HDFS、HBase、Kafka;排程層是Yarn;計算層全部來自於Hadoop生態體系，比如MR、Hive等。

Hadoop生態系統應用狀況大調查：網際網路篇！

　　......

總結

　　最新調查結果顯示，中國每年進口最多的不是石油，而是晶片。國內一線網際網路公司的大資料生態體系建設基本被Hadoop包圓，這種存在感快趕上晶片在中國的地位了。龐大的Hadoop生態體系中，MapReduce、HDFS、Kafka和Yarn的出現頻度最高。然而，不少言論都認為MapReduce的市場競爭力在逐漸減弱，如今這個應用狀況似乎一點失寵的意思都沒有啊!

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31077337/viewspace-2154077/，如需轉載，請註明出處，否則將追究法律責任。

Hadoop生態系統應用狀況大調查：網際網路篇！

相關文章