在百度飛槳,和AI晶片公司深度合作成了預設項

機器之心發表於2022-09-07
AI 晶片可以應對普通計算架構無法應對的挑戰,但為了實現前所未有的加速,我們不僅需要強大的晶片,還需要深度學習框架與其一起深度融合最佳化。

深度學習技術爆發以來,GPU 巨頭 NVIDIA 建立了從晶片、系統到演算法和應用的完整體系,幫助從科技公司到工業,再到前沿科學等領域實現智慧化。而在國內,也有一家公司正在發展「AI 的作業系統」,並和眾多硬體廠商走出了共創的新模式。

在上週世界人工智慧大會 WAIC 上,百度對自身的軟硬體融合體系進行了一番介紹。

「飛槳從 2020 年開始發力 AI 晶片適配,我們為此花費了大量的精力,透過幾年的深耕,我們和國內外晶片廠商深度合作,對 AI 晶片進行了全面適配。透過合作,我們能夠真正地把 AI 晶片的算力發揮出來,」百度 AI 技術生態總經理馬豔軍介紹道。「今年,我們與晶片廠商的合作進入了共創的全新階段。」
圖片
經過兩年多的努力,市面上流行的大多 AI 晶片都已獲得百度飛槳平臺的原生加速,實現了業界領先的效率。

高質量的算力推動了 AI 技術應用。這些最佳化後的算力不僅被用在百度自身、合作方的智慧化業務上,在學界和開發者群體中也受到了歡迎。

為 AI 晶片提供原生加速

眾所周知,深度學習的快速發展正在不斷推動算力需求增長。有研究指出,隨著 2010 年深度學習的實用化,訓練 AI 所需的算力大約每 6 個月翻一番。而從 2015 年開始,因為大規模機器學習模型的出現,需求增長的速度一下子提高到了每年 10 到 100 倍。
圖片
研究者指出,在過去的 12 年裡(2010-2022 年),機器學習訓練算力增長了 100 億倍。

指數級提升的算力需求讓晶片廠商面臨巨大挑戰。人們試圖透過創新架構的 AI 晶片尋求突破,然而在 PyTorch 等常用框架上,雖然專案整體開源,但因為相容性等問題,開發團隊並不接受晶片廠商的程式碼進入主幹,這就導致很多國產 AI 硬體支援新版本框架的成本非常高,只能選擇對重點版本提供支援。

百度飛槳致力於把新款 AI 晶片的程式碼併入主幹——過去兩年多以來,它一直在同硬體生態夥伴共同開發更加便捷的核心框架,構建統一的硬體接入方案。

對於 AI 框架來說,每合入一次程式碼都需要保證模型依然是穩定正確的,這意味著需要動用大量人力,花費大量時間驗證。為此,飛槳主動邀請各家硬體廠商合作搭建了驗證平臺,設定專門的團隊為支援晶片的每一行程式碼進行測試,目的只有一個:保證開發者能夠方便使用。

晶片跑得動是使用的基本需求,人們能夠用好 AI 晶片更需要提高效率,飛槳還能充分發揮 AI 晶片自身的設計特性。

「每款 AI 晶片都有自己的特性。針對它們的特殊能力,只有真正地與硬體核心研發團隊去對接,甚至同他們共同開發框架才能實現,」馬豔軍說道。

在同國內、國外廠商深入合作之後,飛槳框架發揮了硬體的特性,能把這些晶片的效能發揮到極致。在效能最佳化上,飛槳與 NVIDIA 率先完成合作,支援 NVIDIA Tensor Core 上的結構性稀疏矩陣運算的加速能力。在特定機器學習模型的訓練和推理任務中,飛槳可以充分利用硬體特性大幅提升運算速度。

6 月 30 日最新發布的國際權威 AI 基準測試榜單 MLPerf 上,百度使用飛槳框架和百度智慧雲百舸計算平臺提交的 BERT Large 模型 GPU 訓練效能結果,在同等配置下的所有提交結果中排名第一,超越了高度定製最佳化且長期處於榜單領先位置的 NGC PyTorch 框架,向世界展現了飛槳的效能優勢。

以同 NVIDA 的合作為例,百度和更多廠商開啟了聯合研發的歷程。所謂聯合研發,就是共同打磨基礎軟體棧,推進硬體與飛槳的適配與效能最佳化工作。在這之後是技術的實踐和推廣,成功獲得應用的技術方案會獲得雙方的聯合授權,向生態夥伴進行推薦。除此之外,百度還會提供開發教程,向開發者帶來與行業專家探討 AI 領域最新動態的機會。

2022 年 5 月,飛槳攜手 NVIDIA、英特爾、瑞芯微、Arm、Imagination 等國內外硬體廠商聯合釋出了「硬體生態共創計劃」,結合夥伴自有軟硬體基礎開發棧特色,針對不同應用場景和產品共同推出定製版飛槳框架,建設開源開放模型庫,開發課程與培訓內容等,目標更好服務開發者。

圖片

截至目前,加入飛槳「硬體生態共創計劃」的成員企業已有 17 家。

這其中包括一些人工智慧晶片領域的明星企業。在 Graphcore 的專用 AI 晶片上,飛槳提供了完善的支援能力,針對其 IPU 分散式處理器與儲存架構,飛槳整合了相關介面,讓普通開發者也能完全利用晶片的全部效能。

同樣的事情發生在很多國產晶片上,和其他框架比,飛槳原生支援更多的 AI 晶片,對於使用者來說用起來更方便、速度更快。「這種定製化是不對上層使用者可見的。」馬豔軍表示。「對於開發者來說使用的介面沒變,但由於在框架和晶片這一層完成了深度定製化,把效能最佳化到了極致,人們可以體驗到更快的速度。我們解決了框架和晶片適配的問題,從某種程度上來說,也降低了使用者應用 AI 技術的門檻。」

軟硬一體,加倍提升 AI 應用效果

自 2016 年正式開源以來,百度飛槳已經讓深度學習技術研發的全流程開始具備顯著的標準化、自動化和模組化的工業大生產特徵,門檻也在不斷降低。飛槳的能力,正在幫助千行百業完成智慧化升級。

在世界人工智慧大會「軟硬協同賦能產業未來」專題論壇中,英特爾、NVIDIA、Imagination、芯原股份、黑芝麻智慧、紫光展銳、崑崙芯分別介紹了與飛槳合作的成果。
圖片
在論壇中,專家們探討了「軟硬一體賦能晶片設計」的理念。飛槳作為開源的深度學習平臺,對上承接 AI 應用,對下接入智慧晶片,是整個產業鏈中非常關鍵的一環。飛槳可以把開發者對於運算元、模型、算力等 AI 應用落地各層面需求快速傳遞給 IP 廠商,並與 IP 廠商共同從產業鏈源頭最佳化 AI 軟體工具鏈設計。而這些源頭的工作,將為下游的各類開發工作提供良好基礎,提升晶片設計廠商乃至終端廠商開發效率。

對於晶片廠商來說,獲得飛槳深度支援意味著 AI 晶片的能力可以被百萬開發者應用。而在開發者看來,在充分了解晶片能力之後,如何為自己的工作選擇合適的 AI 晶片也不再是個複雜的問題了。

從智慧雲和 C 端業務,到服務工業界的端側 AI 和 IoT 裝置,飛槳服務的生態中使用了大量不同的 AI 算力,不同型別的晶片都可以找到發揮價值的地方。

截至目前,與飛槳展開合作的國內外硬體廠商數量已超過 30 家,國內外主流的機器學習晶片基本都已適配飛槳。百度使用與晶片廠商共同研發產品的方式,已讓很多不同的 AI 晶片找到了廣泛應用場景。

只有更加開放、真正體現商業價值的合作才能推動生態構建。飛槳在軟硬協同的探索,為領先 AI 框架的應用找準了定位。

降低AI大模型門檻,助力開發者

值得一提的是,飛槳提供的能力不僅在工業界應用廣泛,在學界和開發者群體中也受到了歡迎。

百度一方面提供 AI 技術,同時也是 AI 算力的大規模使用者。在公司內部,「百舸」AI 異構計算平臺每月要跑 18 萬個訓練任務,而普通使用者的每次搜尋都要呼叫一次 AI 模型,每天需要處理 60 億次請求。

這些需求考驗著 AI 基礎設施的實時響應能力,「在百度智慧雲深入行業數智化轉型升級後,企業對於 AI 晶片的需求已經出現變化。企業使用的晶片必須足夠強,否則已經無法支撐起業務需求,」馬豔軍說道。「在百度的一些業務中,大模型已經成為了工作流的一部分,『文心』的實踐是實打實的,只要你呼叫介面就可以使用。」

說到大模型,我們一直以來的看法都是「用不起」。但飛槳一直在不停降低大模型應用的門檻,從大模型的訓練、推理、壓縮等環節上支撐文心大模型規模化生產和產業級應用。

尤其是針對學界的支援,飛槳一直在提供 AI 算力資源。據介紹,上海開設 AI 專業的高校本科有 70% 在用飛槳進行教學,其中包括上海交通大學的人工智慧程式設計實踐、復旦大學機器學習同濟大學的電腦科學導論等課程。

在大學的 AI 課程中,飛槳提供了免費的算力及大量教學內容,甚至連預訓練大模型的能力也可以透過 PaddleHub 實現「三行程式碼」即可呼叫。

「我們在 PaddleHub 上開放文心大模型以後,因為使用者使用量出乎預料的增長,很快擠爆了後臺伺服器。」馬豔軍說道。「教授和學生是客觀理性的群體,只有你做的東西好用,人們才會真正用起來。」

深度學習框架被認為是「智慧時代的作業系統」,作為國內應用規模第一的深度學習框架和賦能平臺,全球前三的人工智慧開源開放生態,飛槳其已具備靈活、高效、廣泛適配的核心框架,功能豐富、場景廣泛的產業級模型庫,越來越多的行業開發者,正在其生態中發揮新的生產力。

截至今年 5 月,飛槳已經吸引了 477 萬開發者,在產業應用上服務 18 萬企業,有超過 56 萬個 AI 模型在平臺中得到了應用。

正如百度 CTO 王海峰所說的:「基於飛槳平臺,人人都可以成為 AI 應用的開發者。」
而隨著 AI 應用的不斷落地,硬體算力和軟體演算法將進入協同創新的新階段,飛槳的一大波合作,在「軟硬協同」的道路上邁出了重要的一步。

參考內容:

https://github.com/ML-Progress/Compute-Trends

相關文章