Hadoop生態系統應用狀況大調查:網際網路篇!

趙鈺瑩發表於2018-05-07

  國內外對Hadoop生態系統的生存狀況爭論不休,既然如此,我們不妨摸底調查一番,看看國內一線網際網路公司(具備自我搭建大資料平臺能力的廠商)的大資料平臺是如何搭建的?是否基於Hadoop生態系統?Hadoop的存在感有多少?龐大的Hadoop生態系統中又有哪些元件真正脫穎而出了呢?(本文內容來源於公開資料整理)

BAT之阿里巴巴

  如果要論資料,恐怕只有以電商起家的阿里巴巴才能擁有如此豐富且龐大的資料。有業務場景也有技術能力,阿里巴巴的大資料實力不容置疑。目前,阿里巴巴對外提供基於阿里雲的大資料服務。眾多大資料產品中,筆者看到了Elasticsearch的身影。

  在資料分析和搜尋等方面,阿里提供基於開源Elasticsearch及商業版X-Pack外掛。Elasticsearch想必大家都不陌生,是繼Hadoop之後非常受歡迎的後起之秀。阿里巴巴的大資料解決方案中會有它的出現一點也不讓人驚訝,有了Elasticsearch還有Hadoop的用武之地嗎?

  在阿里巴巴早年的數加平臺(整個大資料部分統稱為數加)介紹中,阿里雲大資料事業部數加平臺技術負責人陳廷曾表示,阿里統一的自主可控的大資料平臺是在Hadoop的基礎上構建的,這套平臺支撐了阿里很重要的一些業務,可見Hadoop對於阿里大資料平臺的構建起到了至關重要的作用。

BAT之騰訊

  騰訊的資料量雖然也不小,但多來源於社交資料。在離線資料處理的介紹中,我們看到騰訊大資料套件基於Hadoop體系的MapReduce、HIVE、PIG、Spark技術向企業使用者提供強大的資料離線批處理能力。

Hadoop生態系統應用狀況大調查:網際網路篇!

  除此之外,Hadoop生態體系還包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

  很多人認為Hadoop生態體系中實力最弱的就是MapReduce,然而目前的騰訊大資料體系中仍然可以看到MapReduce的身影,不知道之後是否會考慮更換。

BAT之百度

  百度的資料與上述兩家又不同,百度的資料來源多為搜尋資料,依託自身百度引擎。進入百度的大資料產品頁面,可以發現百度主打的招牌是“智慧”。百度的大資料產品中應用了大規模的機器學習、深度學習等能力。

Hadoop生態系統應用狀況大調查:網際網路篇!

  百度的大資料基礎套件“魯班”的基礎架構如下,可以很直觀地看到,百度大資料基礎套件中的Kafka和YARN均來源於Hadoop生態系統。

京東:

  京東的電商業務和物流業務如今也是越做越大,京東大資料部為了解決公司越來越廣泛的實時業務需求,推出了一整套技術解決方案——JRDW(JD Realtime Data Warehouse)。

Hadoop生態系統應用狀況大調查:網際網路篇!

  根據介紹,整個大資料平臺有不少開源元件的加入,京東大資料部門在開源元件的基礎上又針對其缺點進行了部分調整,形成了最終框架。在後期的發展中,京東意識到如果要搭建一個穩定可靠的實時任務執行平臺很重要,透過對Storm、Hadoop、HBase、Kafka等的研究,京東自主開發了高可用排程平臺Magpie。

  圖中可以很直接地看出Hadoop的身影,明顯Hadoop對其大資料平臺架構的搭建過程起到了啟發作用。

美團:

  美團的大資料平臺主要支撐了美團的到店餐飲、到店綜合、酒店旅遊、貓眼電影、外賣配送等業務,中間則是基礎資料部,最下層基於美團雲。如果將基礎資料部放大,基本如下圖所示:

Hadoop生態系統應用狀況大調查:網際網路篇!

  離線計算部分是基於Hadoop的資料倉儲資料應用。具體到元件,基礎服務層有HDFS和YARN的參與,計算引擎層有HBase、Kylin、Hive、Spark、Presto等來自Hadoop生態系統的元件參與。

Hadoop生態系統應用狀況大調查:網際網路篇!

  根據一年前的統計資料,這套平臺有42P+總儲存量,每天有15萬個MapReduce和Spark任務,現在想必資料量和複雜度已經再一次升高了。

網易:

  網易的一站式大資料管理和應用開發平臺——網易猛獁,覆蓋了大規模資料儲存與計算、應用開發、資料管理與整合等場景。

Hadoop生態系統應用狀況大調查:網際網路篇!

  在其公佈的大資料架構圖中,我們可以看到底層基本完全構建於Hadoop生態系統,資料整合、資料儲存、資源管理都和Hadoop生態系統有關。這套系統支援HDFS、Hbase、Kudu等從GB到PB級別的儲存方案,支援Hive和MapReduce等批次計算、Spark記憶體計算、Kylin多維分析等多種計算方案。

今日頭條:

  2014年之前,今日頭條並沒有專門的人負責做資料。隨著活躍使用者數的迅猛增長,各種各樣的需求不斷,今日頭條意識到幾個資料工程師單打獨鬥根本解決不了問題,於是資料平臺團隊成立了。

  該團隊將Hadoop、Hive、Spark和Kylin等封裝成工具,將工具與分析模式相結合包裝成解決方案以提供給業務部門。在資料生成與採集方面,今日頭條使用Spark實現類Sqoop的分散式抓取;在資料傳輸方面,採用Kafka作為資料匯流排,連線線上和離線系統;在資料計算方面,今日頭條使用了Spark SQL和Hive;在Cube類查詢引擎,今日頭條已經成為Kylin國內最大使用使用者之一。

滴滴:

  作為目前最大且最活躍的獨角獸企業,滴滴的大資料架構部門十分年輕,成立時間僅一年有餘。去年,滴滴宣佈向各地交通管理部門開放“滴滴交通訊息平臺”資料,而滴滴當時的平臺日訂單量已經超過2000萬,流量高峰期每分鐘接到的使用者需求高達兩萬次。

Hadoop生態系統應用狀況大調查:網際網路篇!

  從圖中不難看出,滴滴大資料平臺分為多個組成部分,資料加工和資料採集兩階段明顯用到了不少Hadoop生態系統的元件,資料加工部分完全依託Hadoop生態系統。

知乎

  截止2017年8月,知乎註冊使用者數破億,全站DAU達2600萬,月瀏覽量180億......知乎大資料架構分為資料採集、資料計算、資料服務和資料產品層。

Hadoop生態系統應用狀況大調查:網際網路篇!

  對於很多公司都會出現的MySQL資料實時查詢需求,知乎調研了Hive和HBase,但最後選擇了將BinLog實時打入Kafka,起一套Spark Streaming程式,將資料寫入Kudu,這樣做的效能會更高一些。雖然這部分元件來源Hadoop生態系統,但知乎內部架構師曾表示公司正在考慮採用TiDB。

新浪

  新浪同樣掌握著大量社交資料,在之前有關新浪大資料體系架構的介紹中,我們可以瞭解到新浪的技術架構同樣基於Hadoop生態圈,最下面是日誌接受傳輸,然後進入Hadoop層,在這之上是ETL資料的整合,隨後是中央資料倉儲,資料探勘、實時統計與計算等操作。

  近幾年,隨著新技術的不斷髮展,新浪的大資料體系也在不斷改變,但Hadoop生態體系依舊佔據著重要位置。

58同城

  58的大資料體系主要分為資料應用、資料應用平臺、資料基礎平臺三層。在接入層,58使用了Canal/Sqoop解決資料接入問題,另一部分資料使用Flume,其中Sqoop和Flume均來源於Hadoop生態體系;儲存層全是熟人:HDFS、HBase、Kafka;排程層是Yarn;計算層全部來自於Hadoop生態體系,比如MR、Hive等。

Hadoop生態系統應用狀況大調查:網際網路篇!

  ......

總結

  最新調查結果顯示,中國每年進口最多的不是石油,而是晶片。國內一線網際網路公司的大資料生態體系建設基本被Hadoop包圓,這種存在感快趕上在中國的地位了。龐大的Hadoop生態體系中,MapReduce、HDFS、Kafka和Yarn的出現頻度最高。然而,不少言論都認為MapReduce的市場競爭力在逐漸減弱,如今這個應用狀況似乎一點失寵的意思都沒有啊!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2154077/,如需轉載,請註明出處,否則將追究法律責任。

相關文章