「這是迄今為止最強的文心大模型。它實現了基礎模型的全面升級,在理解、生成、邏輯和記憶四大能力上都比文心一言線上版本有了明顯提升,綜合水平與 GPT-4 相比毫不遜色,」百度創始人、董事長兼 CEO 李彥宏說道。
國內的大模型已經衝到了業界最強水平?10 月 17 日,百度世界大會上文心大模型 4.0 的釋出引來了一大波關注。
在昨天的大會現場,百度展示了一段又一段 demo,文心大模型現在能看懂你的言外之意,比如問它一個問題:「我想回承德買房,能用公積金貸款嗎?手續怎麼辦,我在北京工作。」
一段完全口語化的表達,前後亂序,沒有明確表述,但 AI 也能理解說話人的潛臺詞:公積金是北京的,戶口可能在承德。文心一言理解上下文之後準確針對問題給出了回答。
當然還有先進的多模態方向:給文心大模型一個新車型的圖片,再加上幾句話的提示(Prompt),它就可以很快生成完整的企劃文案圖片,並把素材結合成海報。再提示幾下,文心就能結合官網資訊和已有內容生成一段宣傳影片,其中還有數字人在進行講解。
從零開始到輸出海報和影片,整個過程不到三分鐘。
「人們常說不寫作業母慈子孝,一寫作業雞飛狗跳。文心一言能不能幫助家長解決輔導功課的問題?」李彥宏說道。
給出一道數學題,文心的解答過程非常詳細。AI 還能夠進一步解釋這個問題中涉及到的各個知識點。
衡量 AI 智慧程度的另一個指標在於長期記憶能力,如果大模型生成的內容前後邏輯不一致,那就不存在可用性了。在現場,李彥宏讓文心一言生成一部武俠小說的大綱,再在其中細化情節,加入幾個人物,改變衝突的戲劇要素…… 問題來了,經歷了多輪對話,它還記得自己最開始給女主角設定的特殊能力嗎?
完全沒有問題。
面向全社會開放才一個多月,文心大模型的綜合水平看來又有了大幅進化,不過在主題演講上的那些畢竟是「命題作文」,真正用起來會不會是一回事呢?
其實想要用上並不難:昨天大會的一開場,百度就宣佈文心大模型 4.0 開啟邀請測試,現場觀眾都有了測試許可權,在網站和 APP 上都可以體驗。我們則是提前獲得了評測資格,嘗試了一下新版本。
文心大模型 4.0 正面對比 GPT-4
在文心一言的網站上,現在已經出現了文心大模型 4.0 的標籤,表面看起來和 3.5 版沒有太大區別:
在這裡我們要引入一點前置知識:上個版本文心大模型 3.5 已經有了外掛(現有 8 種)、多模態理解、生成等能力,透過知識點增強技術實現了對世界知識的熟練掌握。因此,既然說 4.0 版是「迄今為止最強大模型」,我們就不能再用以前過於簡單的問題來考驗它了。
先看理解能力,這道「中文十級題」目測連網友都會翻車,文心大模型 4.0 的回答簡潔明瞭:
換業界標杆 GPT-4 來回答,它理解並解釋了其中幽默的意味,但表示無法確定小明最後買的是幾等座:
下面這段話是在一檔直播節目上出現的,那時人們評價道:全中國沒人聽得懂白巖松在說什麼。
兩個大模型都認為說話人想表達的是:人們都喜愛足球這項運動,不應該因為一小部分人的不喜歡而影響到這種喜愛。不過作為人類,還是得說一句 AI 沒有理解「想說聲喜愛很難」這種感情。
看起來理解問題的水準上,兩種模型水平相近,文心大模型在一小部分問題上有點優勢。
再看邏輯推理能力,輸入一個高考試卷中的物理選擇題,文心大模型 4.0 和 GPT-4 都給出了正確的回答:
看起來文心能給出的答案更詳細一些,另外還顯示了幾個進一步解釋概念的引導選項,似乎它對做題進行了專門的最佳化?
我們繼續問了很多高考的數學題目,結果各有對錯,也有些是都答不上來的。總體來看文心 4.0 和 GPT-4 的水平相近。
還有多模態生成,我們直接用同樣的指令讓兩個大模型生成一段影片,文心一言呼叫「一鏡留影」外掛,直接輸出了結果:
GPT-4 則是呼叫 CapCut(位元組的剪映)外掛生成影片內容。需要注意的是,它提示要想生成影片,就必須要與你進行多輪對話,逐步確定好影片指令碼(英文的)、螢幕比例等等:
在不斷的測試中我們還能看出,如果你 Prompt 得越仔細,說 AI 話的格式越規整,GPT-4 的表現就相對越好,不過最終也並沒有產生決定性的差距。調戲大模型,現在已經越來越像一門學問了。
為了測試四大能力中的長期記憶能力,我們讓文心大模型 4.0 閱讀一篇貼吧的帖子:在崩鐵更新了 1.4 版本之後,有人從自己專業的角度對劇情進行了一長段吐槽,那麼這評價合理嗎?
文心認為遊戲劇情不需要完全按照現實世界的邏輯來展開。我不是很認同,我就是想要符合現實邏輯的劇情:
能不能再跌宕起伏一點?
再嘗試替換其中的一個人物:
看起來,文心大模型 4.0 可以在保持原始知識的情況下,與人在不斷對話的過程中生成、提煉出你想要的內容。
還有一些我們經常會用得到的功能。在 ChatGPT 出現後,越來越多的人開始嘗試使用大模型幫忙來潤色論文,據說 AI 寫論文看起來很有功底,一般人還真比不上。我們用一段著名的發言試一下:
文心大模型 4.0 把它改寫成了這樣:
與之相對的是,GPT-4 更多地使用了原文的資訊:
不過在更多測試中,GPT-4 生成的內容偶爾會出現夾雜英文的現象。
另外,文心一言目前為保證獲取實時資訊,預設接入了百度搜尋外掛,也在理解網路新趨勢的時候能幫得上忙。比如,我們最近都在反思自己有沒有努力工作:
相比之下,GPT-4 給出了似乎是基於大模型幻覺的回答。
如果多點一步選擇使用 Bing 聯網版的 GPT-4 則可以得到正確回覆,不過再次出現了語言問題,偶爾會獲得全英文的回答。
看起來,文心大模型 4.0 在四大核心能力上的提升的確明顯,和 GPT-4 比毫不遜色的說法也並不是誇張,特別是在中文領域裡,水平是經得起考驗的。
核心技術揭秘
能做得到業內領先,百度實現了哪些技術進步?在昨天會上,百度 CTO 王海峰解讀了文心大模型 4.0 的關鍵技術和最新進展。
「相比 3.5 版本,文心大模型 4.0 的理解、生成、邏輯、記憶四大能力都有顯著提升,」王海峰說道。「其中理解和生成能力的提升幅度相近。而邏輯和記憶能力的提升則更大。邏輯的提升幅度達到理解的近三倍,記憶的提升幅度也達到了理解的兩倍多。」這些提升都會給使用者帶來幫助。
這些改進的速度很快 —— 其實文心大模型 4.0 在 9 月初就達到了上線標準,開始了小流量測試。過去的一個多月裡經過不斷調優,它的生成效果又提升了近 30%。
基礎模型能力的增長體現在應用上,就轉化成了生產效率的提升。比如在各家大廠都說在用的智慧程式碼助手上,百度基於文心大模型的 Comate 在內部應用效果不錯,整體的程式碼採納率現在是 40%,高頻使用者的程式碼採納率達到 60%。現在百度每天新增的程式碼中,有 20% 是由大模型生成的,這個比例還在不斷升高。
這些提升又是靠什麼做到的?總的來說,百度基於高效率算力、自研框架、更好的資料處理機制,再結合演算法與調優,這才訓練出了規模更大、效果更好的文心大模型 4.0。
今年 3 月正式釋出的文心一言,其背後基於文心大模型 3.0,這是一個有知識增強的大語言模型,它從數萬億資料和數千億知識中融合學習,又使用了有監督精調、人類反饋強化學習、提示等技術,具備知識增強、檢索增強和對話增強的優勢。
5 月份釋出的文心大模型 3.5 則在基礎模型、精調技術、知識點增強、邏輯推理、外掛機制等方面進行了改進,取得了生成效果和效率的提升。
文心大模型 4.0 以它們為基礎,繼續在多個關鍵技術向上突破。
具體來說,百度:
在萬卡算力上基於飛槳平臺,透過叢集基礎設施和排程系統、飛槳框架的軟硬協同最佳化,支援了大模型的穩定高效訓練。 透過建設多維資料體系,形成了從資料探勘、分析、合成、標註到評估閉環,充分提高資料的利用效率,大幅提升模型效果。 基於有監督精調、偏好學習、強化學習等技術進行多階段對齊,保證了模型能夠更好地與人類的判斷和選擇對齊。 利用可再生訓練技術透過增量式的引數調優,有效節省了訓練資源和時間,加快了模型迭代速度。
基於這一系列的提升,自三月以來文心大模型的訓練效率已累計提升 3.6 倍;訓練穩定性方面,周均的訓練有效率已超過 98%。
另外在更高層面上還有一些改進。
文心大模型 4.0 實現了輸入和輸出兩階段的知識點增強,一方面對使用者輸入的問題進行理解,拆解出所需的知識點,然後在搜尋引擎、知識圖譜、資料庫中查詢準確知識,再把這些知識組裝進 Prompt 送入大模型,提升了準確率和效率。另一方面又對大模型的輸出進行「反思」,從生成結果中拆解出知識點,再用搜尋引擎、知識圖譜、資料庫,以及大模型本身進行確認,對有差錯的內容進行修正。
給大模型再加一層自動化的 AutoGPT 被認為是大模型的重要發展方向,百度同樣構建了文心的智慧體機制。人的認知系統可劃分為兩個部分:系統 1,反應很快,但容易出錯;系統 2,反應慢,但更理性、更準確。在基礎大模型之上百度進一步研製了系統 2,包括理解、規劃、反思和進化,能夠做到可靠執行,自我進化,並一定程度上將思考過程白盒化,從而讓機器像人一樣思考和行動,自主的完成複雜任務,並能夠在環境中持續學習實現自主進化。
接下來,文心一言團隊還會繼續加班加點,持續提升大模型的能力。
目前,文心大模型的使用者量增長很快。王海峰公佈了一組數字:自 8 月 31 日文心一言面向全社會開放至今,僅用 40 多天的時間,文心一言的使用者規模已經達到 4500 萬,同時覆蓋了 5.4 萬開發者,4300 個場景,825 個應用,與之匹配的外掛也超過了 500 個。
百度:做國內第一個 AI 原生化公司
當然,前面展示的文心一言只是生成式 AI 應用的一小部分。
大模型理解、生成、邏輯、記憶的四大核心能力突破,是催生 AI 原生應用的必要條件,帶來了全新的想象和創新空間。
李彥宏表示,百度要做第一個把所有產品進行重構的公司。在世界大會上,百度釋出了多款 AI 原生的應用,來自搜尋、地圖、文庫、網盤等業務線的十餘個應用產品全部亮相。
百度搜尋是大模型落地的第一步,「新搜尋」是全新的 AI 互動式搜尋,它實現了三大重要提升:極致滿足、推薦激發、多輪互動。當你在搜尋框裡輸入問題,它不再是單純的輸出連結,而是生成完整的答案,並附帶易於理解的圖表。
大模型加持的生產力工具也在變得更聰明,分析師現在可以透過大模型工具可以把十幾天才能完成的任務縮短到幾分鐘來完成,參與線上會議的人可以從冗長的對話內容裡快速總結出重要資訊,出差時 AI 也會自動幫你安排行程:
在我們每天都會用的百度地圖上,最新上線的 V19 版本基於文心大模型進行了重構,其中的「AI 嚮導」具備多輪自然語言互動能力,用說話的方式就能喚醒選單裡被摺疊的上千種能力,也可以理解人們不是具體地點的需求,並找到最優解,當好一個嚮導。
如果把眼光放遠到更多行業,百度正在大力推動數字技術與實體經濟的深度融合,其大模型技術已應用在製造、能源、電力、化工、交通等實體產業中。在千帆大模型平臺上,現在已有超過 1.7 萬企業開發了產業模型和解決方案,覆蓋了各行業的近 500 個場景。
最近一段時間,AI 領域技術的軍備競賽讓我們對技術突破越來越熟視無睹。有時候甚至會忘記距離 ChatGPT 正式釋出,現在才過去十個多月的時間。在這段時間裡,通用的生成式 AI 已經從遙不可及的願景,變成了人人在玩的聊天機器人,又蛻變成為了眾多行業效率提升的基礎。
而在未來,不論時間的長短,AI 原生的智慧化註定要改變所有人的生活和工作方式。
可喜的是,在這個過程中,國內公司已經拿到了入場門票。