開疆作劍,開荒為犁:2022春天,文心大模型走進產業百花深處

naojiti發表於2022-04-17

在聯合國總部的花園裡,矗立著一尊青銅雕塑,名為“Let Us Beat Swords into Plowshares”,一個人手拿錘子,正在將劍改鑄為犁——“鑄劍為犁”,代表了近一個世紀以來,人類社會對於文明與發展的共識:將武器變為創造的工具,以造福全人類。

而在人工智慧領域,作為發展關鍵技術的預訓練大模型,也同時具備了劍與犁的兩種屬性——

開疆做劍:大模型在全球掀起了軍備競賽,引數規模不斷升級,文心等大模型的出現,意味著中國將這一AI利器握在了手中,守住了智慧科技的疆土;

開荒做犁:藉助大模型強大的通用能力和開源開放,千行百業和開發者也因此受益,不必從零開始,可以低門檻地“開荒”引入AI,啟動智慧化轉型升級。

近幾年,面對全球經濟和政治形勢的不確定性,人們從未如此迫切地渴望過,將科技“鑄劍為犁”,大模型也應當從軍備競賽變為產業發展的新動能。

如何才能讓大模型“鑄劍為犁”、服務於民生百業?我回想起了一件往事。

2019年的時候,大模型還算是各大科技巨頭的“不傳之祕”,某實驗室就因為不願意開放最新的大模型,被業界嘲諷是CloseAI(封閉AI)。而百度在當年釋出了中國首個正式開放的預訓練模型ERNIE 1.0(產業級知識增強大模型文心的前身),卻沒有藏器待時,而是直接開啟了大模型落地應用的探索,聚焦“產業智慧化”。

這件事令我記憶猶新,可以說,以百度為代表的中國AI力量,在大模型趨勢初現之際,就選擇了“鑄劍為犁”、造福產業的發展方向。

那麼,時間來到2022年春,大模型能夠為普通人和千行百業所用了嗎?

4月16日,在剛剛結束的2021百度認知AI創意賽“AI創意派”決賽現場,我得到了AI大模型一些最新動向。簡單來說:1.大模型加速落地應用,展現出走進產業深處的無限可能;2.文心大模型應用門檻持續降低,公眾首次參賽,釋放出AI創意的無限遐想。

在這個乍暖還寒的春天,跟大家分享一下產業和個人,如何在當下用AI大模型種植希望。

幾度春風:AI大模型走進產業的百花深處

在你的印象中,都是哪些人在使用AI大模型?用GPT3訓練出“碾壓人類”小作文的,是世界頂尖演算法工程師;用AlphaFold預測蛋白質的,是全球頂級AI實驗室;還有炸裂眼球的AI for science大模型,是為預算幾乎無上限的科學任務所準備的……這些AI大模型,千行百業的普通人不會用,也用不起。

難道,大模型註定與普通人無緣了?在2021百度認知AI創意賽“AI創意派”上,百度文心大模型,為我們展現了另一種開啟方式。

正如百度集團副總裁吳甜在比賽現場所說:“只有人工智慧和大模型的門檻,低到了所有人都可方便地用起來,才能真正大規模爆發出各種創意。本次創意賽中,選手展現了基於文心大模型的豐富創意,讓我們看到了大模型廣泛應用的前景。”

這個“鑄劍為犁”的產業化過程,是怎麼發生的?

第一步:技術的鍛造。

與實驗室裡的算力怪獸、規模巨獸不同,面向產業落地應用的大模型,還有許多技術難題需要攻克,解決成本、效率、部署等問題。為此,百度做了許多技術創新工作。

一方面,不斷提升引數規模和模型效果。2021年12月,ERNIE 3.0 升級為全球首個知識增強千億大模型,成為目前為止全球最大的中文單體模型,這也意味著通用能力更出色,泛化能力更強,只需學習少量行業資料,就能夠應用於很多業務場景,降低企業的應用門檻。

另一方面,為了保證超大規模模型的學習效果,百度產業級深度學習平臺飛槳自主研發了端到端自適應分散式訓練框架與4D混合並行技術,有效支援文心大模型高效穩定的訓練,讓產業使用者可以低成本地使用。

在技術的錘鍊下,才能鍛造出一個產業可用、好用的大模型,真正支撐產業應用。此次吳甜也提到,大模型未來的發展趨勢之一,將是技術的持續創新。

第二步:產業的熔爐。

目前,產業在落地應用AI上遇到的普遍阻礙,就是行業know-how與AI模型的不相融,無法解決真實複雜的業務問題。傳統深度學習是“蠻力計算”,無法理解資料深層的含義。

作為產業級大模型,文心與其他大模型的核心差異之一,就是為產業與AI的融合增加了一個關鍵的催化劑——“知識增強”,將大規模知識與深度學習相結合,讓AI能夠理解特定領域資料背後所隱含的知識關係,從而提升理解能力。

舉個例子,病歷質量控制對於醫療行業非常重要,但掌握全科醫學知識的醫生很少,醫院病案科的醫生在進行抽檢工作時,病歷數量多,工作難度大,依靠有限的知識很難對所有病歷做出非常準確的分析和判斷。如果AI演算法不能理解醫學知識,也無法很好地幫助病案科工作提質增效。百度在文心大模型基礎上加入了藥典、醫學大百科等一系列知識,再基於大模型訓練出醫療相關的模型,達到醫學博士的水平,可以對每份病案進行秒級別的智慧掃描分析,從而有效提升了病案質控的工作效率。

第三步:大生產的模具。

從農業生產到工業製造,規模化大生產必不可少的就是標準化模具的出現。AI的規模化應用,也離不開一系列配套工具與平臺。

目前,文心大模型支援數百家企業與機構,開發者數量超過6萬,對外日調量已經超過了五千萬次。這是因為,藉助百度飛槳、百度大腦等平臺和工具,文心大模型的能力能夠被各行各業開發者低門檻地應用。

以飛槳企業版零門檻AI開發平臺EasyDL為例,其就基於文心大模型推出了高精度NLP模型,最快15分鐘就可以完成垂直領域的模型訓練。哪怕是沒有AI基礎的金融、法律等從業人士,也能通過EasyDL一站式自動化訓練,用少量資料構建出自動分析合同條款、自動分析金融研報等定製模型。

這些配套工具與平臺的支撐,讓文心大模型能夠進入規模化應用階段。因此,吳甜也認為2022年將是文心大模型產業落地的關鍵年。

從科學家和工程師手中的神兵利器,到普通人和千行百業的繩墨爐錘,文心大模型“鑄劍為犁”,與產業共同孕育出了百花齊放的智慧之春。

低吟淺唱:放飛AI大模型的無盡想象

哥倫布發現美洲之後,辣椒進入了人類的餐桌;萊特兄弟對天空的嚮往,拉開了飛行的序幕;賈伯斯天才般的創意,智慧手機開始主宰你我的生活……每一次技術浪潮,都少不了天才人物的神來之筆,用創意點燃了新技術的無限想象。

AI時代,大家都不希望中國只能跟在別人身後亦步亦趨,但是,創意從哪裡來?

百度給出了一個答案:“創意在民間。”百度集團副總裁吳甜在AI創意派的比賽現場這樣說道。

民間,意味著要讓AI大模型為最廣泛的人才所用,無論技術水平高低都能參與其中。

此次比賽中,百度首次將AI大模型的使用門檻降到了大眾級別,吸引了全國各地近2000名不同年齡、不同技術基礎的選手。“樂植問答”專案的開發者林傑,就是一個農業公司的產品負責人,沒有上手開發過。這次基於飛槳EasyDL平臺使用ERNIE 3.0,林傑的開發過程還挺順利,一步步訓練出了能夠解答植物問題的DEMO。最近打算自己種菜的朋友越來越多,說不定未來林傑的產品真能拯救植物殺手們。

民間,意味著AI創新會貼近真實生活,大模型要能夠解決大量細節而具體的問題。

本次創意賽的300多份創意方案中,有不少是大廠想不到,普通人卻特別期待的。比如哈工大大二學生煥宜就用六天時間,打造了一個“朋友圈古風文案小能手”,只要有圖片,分分鐘讓你變身文案達人,在朋友圈裝一把文人墨客,吸引點贊無數。

民間,意味著未知的場景和挑戰,大模型會遭遇各種意想不到的用途和場景,也能在實踐中得到檢驗和提升。一個出乎意料的創意就是“反詐疫苗機器人”。

反詐App我下過、疫苗我打過、機器人我玩過,但這個“反詐疫苗機器人”究竟是啥,還真是一頭霧水。原來,開發者郭成(化名)對自己奶奶的各種反詐騙經歷印象深刻,就有了用NLP技術來幫助弱勢群體識別詐騙套路的想法。報名參賽後,郭成利用百度ERNIE 3.0大模型開發了一個對話機器人,使用者跟它對話就能從實踐中汲取反詐經驗,提高防騙能力,相當於打了一針“思想疫苗”。要理解騙子們狡詐詭譎的語言套路,自然就需要機器人具備極高的語義理解、意圖識別等能力,而這正是ERNIE 3.0大模型的優勢之一。

對於廣大圍觀群眾來說,一場比賽的創意可能無法全部落地變為現實。但每一個參賽者,一定能夠從專案實踐中,感受到大模型的真正實力。而AI大模型落地應用的無限可能,就藏在這些關注的眼眸、放飛的腦洞之中。

一犁新雨破春耕:文心為智慧時代寫下風物詩

如果說,文心大模型深入產業,是從誕生之初就開始的“潤物細無聲”,那麼剛剛結束的AI創意賽就像是一犁新雨破春耕,讓我們格外清晰地看到,大模型如何為AI規模化應用插上騰飛的翅膀。

原因也很簡單,大模型要服務於產業,必須能夠解決那些具體的、細節的、工程化的問題。AI科學家們討論的是模型收斂、魯棒性、認知智慧這類專業問題,而當大模型走進千行百業,遭遇的問題則是如同參賽者們提出的一樣:如何找到合適的資料集?買不到GPU怎麼訓練?不會調參該如何操作?結果不符合預期怎麼辦?

大模型要“鑄劍為犁”,就必須指導並幫助產業人士解決這些現實問題。顯然,通過這次AI創意賽,對於上述問題,百度已經有了成功的探索和答案。當然,這不僅僅是文心大模型的功勞,而是百度通過一整套體系,確保大模型能力被融合到產業智慧化升級中。

最核心的,就是飛槳與大模型的融合。前面提到的飛槳開發出4D混合並行策略、自適應分散式訓練等,有效地支援文心大模型高效穩定訓練,還有飛槳EasyDL等開發平臺和工具,也早已開源給社會各界使用。飛槳與大模型的強強聯手、融合發展,成為一個技術領先、自主創新、能力堅實、產業可用的AI大底座,有力地支撐中國產業智慧化轉型。

接下來,是雲與大模型的融合。產業智慧化呼喚著更敏捷、簡單、低成本的AI獲取方式,雲服務成為各行各業引入AI大模型、基礎演算法、AI算力等的必經之路。在這樣的大背景下,百度很早就推動了AI與雲的深度融合,百度智慧雲作為百度AI技術的產業出口,正在將文心大模型推向越來越多的產業場景。

當然,大模型的發展也離不開與人才生態的融合。提到AI人才教育,似乎總是伴隨著嚴肅和焦慮,其實不然。中國人所向往的教育最高境界,是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,風乎舞雩,詠而歸”。而AI創意賽恰恰讓我有了這種感受,在文心大模型的臂膀託舉下,無數創意自由地、輕盈而舒展地飛揚。當普通人也能且歌且行,融入AI創意的洪流,我們還會擔心聽不到AI創新的聲音嗎?

經過三年耕耘,百度為AI大模型確立了從研致用的新正規化,推動大模型走向“鑄劍為犁”、服務產業的新階段。

隨著更多人與產業加入大模型的合唱,一首智慧時代的風物詩,將飄揚在華夏大地的每一個角落。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2887508/,如需轉載,請註明出處,否則將追究法律責任。

相關文章