更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
Hadoop 3.1.0 版本帶來的重大變化簡要介紹如下:
Yarn Service 服務框架為在 YARN 上長期執行的服務提供支援,作為一個容器編配平臺來管理執行在 YARN 上那些被容器化的服務,支援 Docker 容器和傳統容器。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/yarn-service/Overview.html
YARN 支援基於 GPU 的排程和隔離(Docker 和非 Docker 容器)。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingGpus.html
YARN 支援基於 FPGA 的排程和隔離(Docker 和非 Docker 容器)。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingFPGA.html
在 YARN 中支援更多的配置約束。這些約束對於應用程式的效能和彈性至關重要,尤其是那些包含長期執行容器的應用程式,如服務、機器學習和流式工作負載。在同一機架上排程有關聯的任務(相似性約束)可以降低網路成本,在機器之間分配任務(反親和約束)以便降低資源干擾,或者限定特定節點組的任務數量(基數約束)以在兩者之間取得平衡。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/PlacementConstraints.html
支援管理員為佇列指定具體數目的資源(比如具體的記憶體數量、vcore 核數、GPU 等),而不是提供基於百分比的值,這讓管理員能夠更好地控制給定佇列配置所需的資源。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html
3.1.0 提供的儲存允許將儲存在 HDFS 之外的資料對映到 HDFS,並從 HDFS 進行定址。這是一種異構儲存,通過向 DataNode 中引入新的儲存型別 PROVIDED 來實現。
詳情參見:
http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-hdfs/HdfsProvidedStorage.html
3.1.0 版本中,Hadoop 社群修復了 768 個在 JIRA 記錄的問題(https://s.apache.org/apache-hadoop-3.1.0-all-tickets),包括:
與 Hadoop Common 有關的 141 個 ,其中包括 S3/S3A/S3Guard 相關改進
與 HDFS 有關的 266 個
與 YARN 有關的 329 個
與 MapReduce 有關的 32 個
更多改動參見官方 Release Notes:
http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-common/release/3.1.0/RELEASENOTES.3.1.0.html
Gartner 在 2017 年 9 月釋出的一份關於資料管理的技術成熟度曲線顯示,由於整個 Hadoop 堆疊的複雜性和可用性問題,許多組織已經開始重新考慮其在資訊基礎架構中的角色。Gartner 認為,Hadoop 已發行版本已經被淘汰出局,未能進入實質生產的高峰期 (Plateau of Productivity)。與此相對,企業正在尋求其他更有競爭力、更加便捷的基於雲的產品。
Hadoop 是否真的老矣?此次 3.1.0 版本釋出的幾項重大改進,能否給這個老牌大資料平臺帶來新的活力?你怎麼看?
原文連結:
https://lists.apache.org/thread.html/8313e605c0ed0012f134cce9cc6adca738eea81feccea99c8de87cd9@%3Cgeneral.hadoop.apache.org%3E
http://hadoop.apache.org/docs/r3.1.0/index.html
https://www.gartner.com/newsroom/id/3809163