AI 晶片可以應對普通計算架構無法應對的挑戰,但為了實現前所未有的加速,我們不僅需要強大的晶片,還需要深度學習框架與其一起深度融合最佳化。深度學習技術爆發以來,GPU 巨頭 NVIDIA 建立了從晶片、系統到演算法和應用的完整體系,幫助從科技公司到工業,再到前沿科學等領域實現智慧化。而在國內,也有一家公司正在發展「AI 的作業系統」,並和眾多硬體廠商走出了共創的新模式。在上週世界人工智慧大會 WAIC 上,百度對自身的軟硬體融合體系進行了一番介紹。「飛槳從 2020 年開始發力 AI 晶片適配,我們為此花費了大量的精力,透過幾年的深耕,我們和國內外晶片廠商深度合作,對 AI 晶片進行了全面適配。透過合作,我們能夠真正地把 AI 晶片的算力發揮出來,」百度 AI 技術生態總經理馬豔軍介紹道。「今年,我們與晶片廠商的合作進入了共創的全新階段。」經過兩年多的努力,市面上流行的大多 AI 晶片都已獲得百度飛槳平臺的原生加速,實現了業界領先的效率。高質量的算力推動了 AI 技術應用。這些最佳化後的算力不僅被用在百度自身、合作方的智慧化業務上,在學界和開發者群體中也受到了歡迎。眾所周知,深度學習的快速發展正在不斷推動算力需求增長。有研究指出,隨著 2010 年深度學習的實用化,訓練 AI 所需的算力大約每 6 個月翻一番。而從 2015 年開始,因為大規模機器學習模型的出現,需求增長的速度一下子提高到了每年 10 到 100 倍。研究者指出,在過去的 12 年裡(2010-2022 年),機器學習訓練算力增長了 100 億倍。指數級提升的算力需求讓晶片廠商面臨巨大挑戰。人們試圖透過創新架構的 AI 晶片尋求突破,然而在 PyTorch 等常用框架上,雖然專案整體開源,但因為相容性等問題,開發團隊並不接受晶片廠商的程式碼進入主幹,這就導致很多國產 AI 硬體支援新版本框架的成本非常高,只能選擇對重點版本提供支援。百度飛槳致力於把新款 AI 晶片的程式碼併入主幹——過去兩年多以來,它一直在同硬體生態夥伴共同開發更加便捷的核心框架,構建統一的硬體接入方案。對於 AI 框架來說,每合入一次程式碼都需要保證模型依然是穩定正確的,這意味著需要動用大量人力,花費大量時間驗證。為此,飛槳主動邀請各家硬體廠商合作搭建了驗證平臺,設定專門的團隊為支援晶片的每一行程式碼進行測試,目的只有一個:保證開發者能夠方便使用。晶片跑得動是使用的基本需求,人們能夠用好 AI 晶片更需要提高效率,飛槳還能充分發揮 AI 晶片自身的設計特性。「每款 AI 晶片都有自己的特性。針對它們的特殊能力,只有真正地與硬體核心研發團隊去對接,甚至同他們共同開發框架才能實現,」馬豔軍說道。在同國內、國外廠商深入合作之後,飛槳框架發揮了硬體的特性,能把這些晶片的效能發揮到極致。在效能最佳化上,飛槳與 NVIDIA 率先完成合作,支援 NVIDIA Tensor Core 上的結構性稀疏矩陣運算的加速能力。在特定機器學習模型的訓練和推理任務中,飛槳可以充分利用硬體特性大幅提升運算速度。6 月 30 日最新發布的國際權威 AI 基準測試榜單 MLPerf 上,百度使用飛槳框架和百度智慧雲百舸計算平臺提交的 BERT Large 模型 GPU 訓練效能結果,在同等配置下的所有提交結果中排名第一,超越了高度定製最佳化且長期處於榜單領先位置的 NGC PyTorch 框架,向世界展現了飛槳的效能優勢。以同 NVIDA 的合作為例,百度和更多廠商開啟了聯合研發的歷程。所謂聯合研發,就是共同打磨基礎軟體棧,推進硬體與飛槳的適配與效能最佳化工作。在這之後是技術的實踐和推廣,成功獲得應用的技術方案會獲得雙方的聯合授權,向生態夥伴進行推薦。除此之外,百度還會提供開發教程,向開發者帶來與行業專家探討 AI 領域最新動態的機會。2022 年 5 月,飛槳攜手 NVIDIA、英特爾、瑞芯微、Arm、Imagination 等國內外硬體廠商聯合釋出了「硬體生態共創計劃」,結合夥伴自有軟硬體基礎開發棧特色,針對不同應用場景和產品共同推出定製版飛槳框架,建設開源開放模型庫,開發課程與培訓內容等,目標更好服務開發者。截至目前,加入飛槳「硬體生態共創計劃」的成員企業已有 17 家。這其中包括一些人工智慧晶片領域的明星企業。在 Graphcore 的專用 AI 晶片上,飛槳提供了完善的支援能力,針對其 IPU 分散式處理器與儲存架構,飛槳整合了相關介面,讓普通開發者也能完全利用晶片的全部效能。同樣的事情發生在很多國產晶片上,和其他框架比,飛槳原生支援更多的 AI 晶片,對於使用者來說用起來更方便、速度更快。「這種定製化是不對上層使用者可見的。」馬豔軍表示。「對於開發者來說使用的介面沒變,但由於在框架和晶片這一層完成了深度定製化,把效能最佳化到了極致,人們可以體驗到更快的速度。我們解決了框架和晶片適配的問題,從某種程度上來說,也降低了使用者應用 AI 技術的門檻。」自 2016 年正式開源以來,百度飛槳已經讓深度學習技術研發的全流程開始具備顯著的標準化、自動化和模組化的工業大生產特徵,門檻也在不斷降低。飛槳的能力,正在幫助千行百業完成智慧化升級。在世界人工智慧大會「軟硬協同賦能產業未來」專題論壇中,英特爾、NVIDIA、Imagination、芯原股份、黑芝麻智慧、紫光展銳、崑崙芯分別介紹了與飛槳合作的成果。在論壇中,專家們探討了「軟硬一體賦能晶片設計」的理念。飛槳作為開源的深度學習平臺,對上承接 AI 應用,對下接入智慧晶片,是整個產業鏈中非常關鍵的一環。飛槳可以把開發者對於運算元、模型、算力等 AI 應用落地各層面需求快速傳遞給 IP 廠商,並與 IP 廠商共同從產業鏈源頭最佳化 AI 軟體工具鏈設計。而這些源頭的工作,將為下游的各類開發工作提供良好基礎,提升晶片設計廠商乃至終端廠商開發效率。對於晶片廠商來說,獲得飛槳深度支援意味著 AI 晶片的能力可以被百萬開發者應用。而在開發者看來,在充分了解晶片能力之後,如何為自己的工作選擇合適的 AI 晶片也不再是個複雜的問題了。從智慧雲和 C 端業務,到服務工業界的端側 AI 和 IoT 裝置,飛槳服務的生態中使用了大量不同的 AI 算力,不同型別的晶片都可以找到發揮價值的地方。截至目前,與飛槳展開合作的國內外硬體廠商數量已超過 30 家,國內外主流的機器學習晶片基本都已適配飛槳。百度使用與晶片廠商共同研發產品的方式,已讓很多不同的 AI 晶片找到了廣泛應用場景。只有更加開放、真正體現商業價值的合作才能推動生態構建。飛槳在軟硬協同的探索,為領先 AI 框架的應用找準了定位。值得一提的是,飛槳提供的能力不僅在工業界應用廣泛,在學界和開發者群體中也受到了歡迎。百度一方面提供 AI 技術,同時也是 AI 算力的大規模使用者。在公司內部,「百舸」AI 異構計算平臺每月要跑 18 萬個訓練任務,而普通使用者的每次搜尋都要呼叫一次 AI 模型,每天需要處理 60 億次請求。這些需求考驗著 AI 基礎設施的實時響應能力,「在百度智慧雲深入行業數智化轉型升級後,企業對於 AI 晶片的需求已經出現變化。企業使用的晶片必須足夠強,否則已經無法支撐起業務需求,」馬豔軍說道。「在百度的一些業務中,大模型已經成為了工作流的一部分,『文心』的實踐是實打實的,只要你呼叫介面就可以使用。」說到大模型,我們一直以來的看法都是「用不起」。但飛槳一直在不停降低大模型應用的門檻,從大模型的訓練、推理、壓縮等環節上支撐文心大模型規模化生產和產業級應用。尤其是針對學界的支援,飛槳一直在提供 AI 算力資源。據介紹,上海開設 AI 專業的高校本科有 70% 在用飛槳進行教學,其中包括上海交通大學的人工智慧程式設計實踐、復旦大學的機器學習、同濟大學的電腦科學導論等課程。在大學的 AI 課程中,飛槳提供了免費的算力及大量教學內容,甚至連預訓練大模型的能力也可以透過 PaddleHub 實現「三行程式碼」即可呼叫。「我們在 PaddleHub 上開放文心大模型以後,因為使用者使用量出乎預料的增長,很快擠爆了後臺伺服器。」馬豔軍說道。「教授和學生是客觀理性的群體,只有你做的東西好用,人們才會真正用起來。」深度學習框架被認為是「智慧時代的作業系統」,作為國內應用規模第一的深度學習框架和賦能平臺,全球前三的人工智慧開源開放生態,飛槳其已具備靈活、高效、廣泛適配的核心框架,功能豐富、場景廣泛的產業級模型庫,越來越多的行業開發者,正在其生態中發揮新的生產力。截至今年 5 月,飛槳已經吸引了 477 萬開發者,在產業應用上服務 18 萬企業,有超過 56 萬個 AI 模型在平臺中得到了應用。正如百度 CTO 王海峰所說的:「基於飛槳平臺,人人都可以成為 AI 應用的開發者。」而隨著 AI 應用的不斷落地,硬體算力和軟體演算法將進入協同創新的新階段,飛槳的一大波合作,在「軟硬協同」的道路上邁出了重要的一步。參考內容:
https://github.com/ML-Progress/Compute-Trends