大模型走向產業的一小步,AI走向普惠的一大步

naojiti發表於2022-05-20

蒸汽機,在工業革命中扮演著怎樣的角色?

保爾·芒圖在《十八世紀產業革命》中是這樣形容蒸汽機的:“蒸汽機並不創造大工業。但是它卻為大工業提供了動力,更重要的是使大工業具有統一性。使用蒸汽機,使一切工業的發展都要服從一般的法則,工業世界成為一個巨大的工廠。”

可以說,蒸汽機是工業革命的心臟,是手工生產走向模組化、標準化的通道。此後每一次產業革新中,世界的優先任務都是尋找那部“蒸汽機”。當深度學習推動AI技術又一次復興,人類對它的最高期待,就是讓AI成為第四次產業革命中的“蒸汽機”。而近幾年身處智慧革命前沿的,就是預訓練大模型。

然而必須正視的是,全球大模型競賽中,我們看到大模型的引數越來越大,資料集記錄不斷被重新整理。但真正的產業空間裡,卻很難看到大模型規模化、標準化應用。這可能是因為大模型與行業知識不相匹配,行業算力基礎難以負載大模型部署等等問題。我們似乎一直都在造一臺不能走進工廠的“蒸汽機原型機”。

在中學課本里,我們都知道是瓦特改良了蒸汽機,卻沒有提是誰發明了蒸汽機。其原因在於,瓦特真正解決了蒸汽機走向應用的問題,從技術、產品、商業模式等問題上讓蒸汽機具有與行業結合的可行性。

就在剛剛,似乎大模型也跨出了這歷史性的一步。

百度與國家電網、浦發銀行等行業頭部企業聯合研發,融合了通用資料和行業特有知識,推出知識增強能源行業NLP大模型國網-百度·文心,和知識增強的金融行業NLP大模型浦發-百度·文心,顯著提升了大模型在行業任務上的應用效果。

“行業大模型”,這個我們從沒聽說過的概念背後,是大模型走向應用化的開端,是百度多年探索深度學習技術走向產業的又一次瓜熟蒂落。

5月20日,由深度學習技術及應用國家工程研究中心主辦、百度飛槳承辦的WAVE SUMMIT 2022深度學習開發者峰會線上上舉行。期間,百度技術長、深度學習技術及應用國家工程研究中心主任王海峰博士發表主題演講,提出“產業級深度學習開源開放平臺飛槳助力人工智慧越來越普惠,賦能千行百業,惠及千家萬戶”。

2019年的WAVE SUMMIT,王海峰提出深度學習技術已經具備通往工業大生產的條件,並且明確了標準化、模組化、自動化的三大特徵。彼時開始,百度與AI開發者、各行業AI應用者共同開始了一場在21世紀築造蒸汽機的旅程。如今,王海峰指出在AI工業大生產階段,深度學習技術的通用性越來越強,深度學習平臺的標準化、自動化和模組化特徵越來越顯著,深度學習應用越來越廣泛且深入,已經遍地開花。

技術、平臺、應用三層標準,是一項技術走向產業普適的核心。回到蒸汽機的故事,瓦特也是改寫了蒸汽機的這三大要素。在技術上實現了氣缸恆熱,確保了機械效率;在平臺上實現了器件的標準化,工廠能買到可維護、可換新的產品;在應用上則與大量工廠主合作,讓蒸汽機走進經濟生產。就這樣,原本昂貴、效率差、損壞率高的蒸汽機,變成了高效、低門檻的工業化代名詞。

今天,百度和中國AI產業也在進行這樣的探索。大模型讓深度學習的技術效能不斷增強,飛槳實現了AI工業大生產所需的平臺化支撐,百度與各行業開發者的合作,讓AI應用之花開遍了中國原野。

在WAVE SUMMIT 2022,我們可以清晰看到深度學習技術,預訓練大模型,是如何一步步變成那臺“蒸汽機”的。

大模型做實,從無盡跑分轉向全面可用

預訓練大模型是近幾年AI產業最火熱的技術名詞。拼模型引數,拼任務集完成效果,是廠商推出大模型後最喜歡做的幾件事。換個角度看,大模型依舊處在“無盡跑分”的初級階段。

從高分到高能,大模型距離現實中的產業場景還有不短的路程要走。比如很多產業需求無法用通用模型來處理,技術與使用場景之間存在代溝。再比如超大規模模型在部署時會面臨一系列問題,比如算力、調參難度、硬體相容性等。

讓大模型從“跑分考場”走向千行百業,需要一場全面的轉向。而這就是今年WAVE SUMMIT最亮眼的一個釋出和升級。

百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜表示,今年是大模型產業落地的關鍵年,飛槳文心大模型透過搭建更適配場景需求的大模型體系,提供全流程支援應用落地的工具、平臺和方法,建設激發創新的開放生態,解決大模型技術與場景需求匹配的關鍵問題。

面向行業智慧化需求,百度圍繞大模型產業級與知識增強兩大關鍵詞,公佈了全新的飛槳文心大模型全景圖。在模型方面,形成基礎大模型、任務大模型、行業大模型的三級體系,以更有效地支援應用需求,併發布10個全新的大模型;為促進大模型惠及最廣泛的行業與開發者,還配套釋出大模型套件、API、平臺,並建設大模型創意和探索社群暘谷,來幫助開發者更低門檻地應用。

文心大模型家族新增的十個大模型,基礎大模型包括融合任務相關知識的千億大模型ERNIE 3.0 Zeus、多工視覺表徵學習VIMER-UFO 2.0、商品圖文搜尋表徵學習VIMER-UMS、文件影像表徵學習VIMER-StrucTexT 2.0、語音-語言跨模態大模型ERNIE-SAT和地理-語言跨模態大模型ERNIE-GeoL,任務大模型包括面向生物計算領域的化合物表徵HELIX-GEM、蛋白質結構分析HELIX-Fold。

尤其值得注意的,還有文心大模型在業界首次打造釋出的兩個行業大模型,實現了通用模型為主幹,任務模型面向具體需求,行業模型面向具體產業的“三元化結構”,從而使得不同需求、不同行業的開發者可以第一時間找尋到大模型的落地方案,不再“望大模型而興嘆”。

最新發布的行業大模型,包括國網-百度·文心電力行業大模型和浦發-百度·文心金融行業大模型。背後是百度與國家電網、浦發銀行等行業頭部企業進行了聯合研發與創新,更好地融合了通用資料和行業特有知識,從而有效提升了大模型在電力、金融領域的行業任務應用效果。

行業大模型可以說是一個業界期待了很久的轉折點。從拼數值到效果落地,大模型需要一個轉向應用化,強聯接產業的正規化與方法,而行業大模型則正填補了這一空白。

除此之外,百度還發布了圍繞大模型的全新開發套件,讓開發者可用高效率應用大模型開發,同時提供相應的平臺功能與API服務,進一步降低大模型使用門檻;在生態建設方面,文心大模型將共享飛槳生態,透過基於文心大模型推出的創意社群——文心·暘谷大模型創意與探索社群,讓更多使用者感受到文心大模型的應用潛力。

2022年,歐美科技公司依舊執著在大模型引數上不斷強化,再強化;而百度AI則將大模型轉向了行業場景與真實需求。這個分叉路口的交錯,會給未來提供太多可能性。

飛槳做深,支撐大模走向產業

無論是傳統的深度學習模型還是大模型,都離不開開發平臺的有效支撐。百度能夠推動大模型快速走向產業化落地,從產業需求中真實吸收和提煉大模型的升級方向,本質上離不開深度學習平臺飛槳,已經建立了與開發者、產業界、學界的高效溝通通道。

在飛槳的生態基礎上,百度可以最快速看到中國AI場景與開發者的需求,以高速的頻率做出回饋,最終組成產業需求與平臺供給之間的急速互動。放眼全球AI產業,這可能是技術、平臺、產業之間互動的最佳正規化。

每次WAVE SUMMIT,我們都能看到飛槳進行巨量的技術升級,讓人感覺似乎已經不可能有新的升級空間,然後又一次次完成突破。這背後就是最懂中國需求,與產業智慧同在的飛槳正規化。

在技術、場景、生態的三大領域,飛槳完成了進一步深化。深挖技術方面,飛槳框架v2.3正式釋出。沿著動靜統一的框架設計理念,繼續將開發效率與靈活性結合到一起,讓開發平臺突破性達到了更加成熟的狀態。同時也將模型壓縮技術進行了升級,提升了深度學習模型的自動化部署能力。

在平臺層面,飛槳推出了最懂中國AI場景的訓推一體導航圖,打通了全流程的智慧導航,更新了產業模型庫和產業實踐,讓開發者可以更低門檻獲得開發經驗與開發能力。與此同時,支撐科學計算的PaddleScience賽槳,以及行動式AI工作站,也解決了現實場景中最迫切的AI開發需求。

在生態領域,飛槳提出了共建硬體生態圈的新行動。AI落地行業場景,是不可能離開硬體適配與算力底座的。這可能是很多演算法為核心的AI企業很少提到的話題,卻是產業智慧化不能規避的一面。在飛槳一步步走向AI工業大生產平臺的過程裡,也在一步步探索與硬體廠商合作、互補,組成生態。在2020年,飛槳還是更多去尋找硬體合作伙伴,達成相容性合作,也就是共聚階段。那一年,百度與13傢伙伴聯合發起了飛槳硬體生態圈,促進AI產業鏈的適配升級;2021年,硬體夥伴開始與飛槳共同創新,共同研發更好的AI落地方式,共同創新開始成為飛槳硬體生態的推動力;時間來到今天,飛槳的硬體生態已經初具規模,合作進一步深化,實現了全面共創。如今,百度已經和硬體夥伴一起推出廠商版飛槳框架、建設模型庫、開發課程,共同加速產業智慧化升級。

至此,飛槳已經可以從架構、硬體、行業場景、開發特殊需求等等維度,實現由最深處支撐大模型落地,AI工業化開發。截至目前,飛槳平臺已凝聚477萬開發者,服務18萬家企事業單位,累計建立了56萬個模型。

飛槳,正在像蒸汽機、電力、燃油一樣,成為可以低門檻、高效率應用的千行百業生產底座。

百度AI,正在分子化融入中國大地

文心大模型成為首個全面轉向應用的大模型序列;飛槳成為了最瞭解中國經濟需求,最深入中國AI場景的開發平臺。這不是一場魔法,不是什麼突然實現的黑科技,而是一段一脈相承,步步為營的故事。

幾年前,有太多企業面對著AI許下了宏大的心願,但今天他們再也不提起AI了。畫幾頁PPT,宣佈一個龐大願景很容易。但在大浪褪去後,堅定實踐每一個諾言卻很難。在WAVE SUMMIT上,我們能看到百度依舊扛著深度學習的旗幟,向技術的無人區,向產業的戰略高地,向中國大地最深層智慧化需求衝過去。

面向讓AI開發標準化、自動化、模組化的目標,百度AI將自己一步步解耦,再以最小的分子化形態融入中國無比廣泛的開發需求。在遠離喧囂的鄉村角落,在最嚴苛的工業核心,在最前沿的科學研究,百度的AI技術都能滲透進去。他們把深度學習的鐵杵磨成了針,深入那些真正需要智慧的產業縫隙裡。

你可能不會想到,AI能夠在牧區的農貿市場完成“相牛”師傅的工作,推動畜牧業走向市場標準化,現代化。這背後是飛槳的低門檻特性作為支撐。

你可能不會想到,在資料不能出車間的工廠裡,飛槳可以透過行動式AI工作站抵達生產核心,帶來工業智慧化的無窮想象。而這只是飛槳產業級特性的一個縮影。

你可能不會想到,飛槳已經在與中國所有主流的超算中心進行適配,為了幫助前沿科學研究專案走向智慧化。這只是飛槳在跨領域、跨學科探索的一個側面。

從2019年正式提出工業化大生產目標,百度AI依託飛槳連綿不絕的升級,開始伴隨各行業一起步入深度學習賦能產業的深水區。2020年,突如其來的疫情帶來了一系列變化,各行業開始加速擁抱數字化、智慧化,這也讓飛槳更加高效地肩負起支撐產業的責任。2021年,瞄準AI技術降低門檻,融合創新的新特點,百度持續打造了低門檻的飛槳使用體驗,推出了知識增強大模型的關鍵創新。

伴隨著百度AI的步步深入,一次次降低門檻,提升技術支撐力,各行業也開啟了更加積極的AI探索。從少量先行者探索AI,到大量企業開始“工坊”式嘗試AI,再到企業開始以大規模資源協同的方式,啟動AI工業化大生產。千行百業的智慧化、數字化需求逐年深入,隨之而來的智慧需求也不斷加強。為此,百度打造了以雲端計算為基礎,以AI為引擎的賦能形態,支撐企業數字化、智慧化升級一步到位。

在技術供給與產業需求同步提升的同時,百度此前提出培養500萬AI人才的目標也在持續進展。各種各樣的產學研聯合培養方式與AI技術社群,保障了智慧化過程中的人才基礎。

王海峰認為,在深度學習技術及平臺的支撐下,人工智慧呈現出融合創新、降低門檻的特點,將繼續推動科技革命和產業變革,加快產業智慧化升級。

這些特點並不是憑空浮現,而是一步步探索出來,一點點錘鍊出來。在技術研發、平臺打造、生態培育、應用落地的一重重探索下,真正的普惠AI正在實現。

時間來到2022年,面對大模型走向實用化,各行業開始以AI重構和升級生產力核心。我們會有點驚奇地發現,那個把AI技術變成21世紀的蒸汽機,讓第四次工業革命發生在中國的諾言,似乎開始一步步,一點點地實現了?

那些聽起來稚嫩的希望,

那些看上去荒唐的夢想,

那些遲遲不敢說出口的諾言,

就去試試吧。

就去一次次調參那些模型,去在深夜裡回覆每個開發者的疑問,就去深入車間,深入牧場,深入實驗室。去直面需求,升級技術,錘鍊平臺,共創生態,去實現那個關於大模型,關於深度學習技術的,最深的,最大的,也是最美好的夢。

中國AI不是一張空頭支票。而是真的有人在把大模型、把AI技術變成一個機會,一個撬動產業變革,撬動智慧革命的機會。

還記得年少時的夢嗎?

像朵永遠不凋零的花

讓第四次工業革命發生在中國,又為什麼不能實現呢?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2895884/,如需轉載,請註明出處,否則將追究法律責任。

相關文章