Apache Hadoop 3.1.0重磅釋出,終於支援GPU和FPGA了!

AI前線發表於2018-04-08
Apache Hadoop 3.1.0重磅釋出,終於支援GPU和FPGA了!
策劃編輯|Natalie
編譯|Debra、無明
AI 前線導讀:4 月 6 日,Apache Hadoop 正式釋出了 3.1.0 版本,這是 2018 年 Hadoop 3.x 系列的第一個小版本,較之前的 Hadoop 3.0 有了一些重大改變。需要注意的是,這個版本還不適用於生產環境,如果需要在生產環境下使用的使用者還需等待 3.1.1 或 3.1.2 版本釋出。但 3.1.0 也有其重大意義,因為它終於支援 GPU 和 FPGA 了。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
重大改進

Hadoop 3.1.0 版本帶來的重大變化簡要介紹如下:

  • Yarn Service 服務框架為在 YARN 上長期執行的服務提供支援,作為一個容器編配平臺來管理執行在 YARN 上那些被容器化的服務,支援 Docker 容器和傳統容器。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/yarn-service/Overview.html


  • YARN 支援基於 GPU 的排程和隔離(Docker 和非 Docker 容器)。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingGpus.html


  • YARN 支援基於 FPGA 的排程和隔離(Docker 和非 Docker 容器)。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/UsingFPGA.html


  • 在 YARN 中支援更多的配置約束。這些約束對於應用程式的效能和彈性至關重要,尤其是那些包含長期執行容器的應用程式,如服務、機器學習和流式工作負載。在同一機架上排程有關聯的任務(相似性約束)可以降低網路成本,在機器之間分配任務(反親和約束)以便降低資源干擾,或者限定特定節點組的任務數量(基數約束)以在兩者之間取得平衡。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/PlacementConstraints.html


  • 支援管理員為佇列指定具體數目的資源(比如具體的記憶體數量、vcore 核數、GPU 等),而不是提供基於百分比的值,這讓管理員能夠更好地控制給定佇列配置所需的資源。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html


  • 3.1.0 提供的儲存允許將儲存在 HDFS 之外的資料對映到 HDFS,並從 HDFS 進行定址。這是一種異構儲存,通過向 DataNode 中引入新的儲存型別 PROVIDED 來實現。


    詳情參見:

    http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-hdfs/HdfsProvidedStorage.html

其他更新

3.1.0 版本中,Hadoop 社群修復了 768 個在 JIRA 記錄的問題(https://s.apache.org/apache-hadoop-3.1.0-all-tickets),包括:

  • 與 Hadoop Common 有關的 141 個 ,其中包括 S3/S3A/S3Guard 相關改進

  • 與 HDFS 有關的 266 個

  • 與 YARN 有關的 329 個

  • 與 MapReduce 有關的 32 個

更多改動參見官方 Release Notes:

http://hadoop.apache.org/docs/r3.1.0/hadoop-project-dist/hadoop-common/release/3.1.0/RELEASENOTES.3.1.0.html

Hadoop 老矣?

Apache Hadoop 3.1.0重磅釋出,終於支援GPU和FPGA了!

Gartner 在 2017 年 9 月釋出的一份關於資料管理的技術成熟度曲線顯示,由於整個 Hadoop 堆疊的複雜性和可用性問題,許多組織已經開始重新考慮其在資訊基礎架構中的角色。Gartner 認為,Hadoop 已發行版本已經被淘汰出局,未能進入實質生產的高峰期 (Plateau of Productivity)。與此相對,企業正在尋求其他更有競爭力、更加便捷的基於雲的產品。

Hadoop 是否真的老矣?此次 3.1.0 版本釋出的幾項重大改進,能否給這個老牌大資料平臺帶來新的活力?你怎麼看?

原文連結:

https://lists.apache.org/thread.html/8313e605c0ed0012f134cce9cc6adca738eea81feccea99c8de87cd9@%3Cgeneral.hadoop.apache.org%3E

http://hadoop.apache.org/docs/r3.1.0/index.html

https://www.gartner.com/newsroom/id/3809163


更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)


相關文章