文心一言 vs GPT-4實測!百度背水一戰交卷
編輯部 發自 凹非寺
量子位 | 公眾號 QbitAI
GPT-4釋出一天之後,壓力全部給到百度這邊。
就在剛剛,百度交卷。
文心一言,百度全新一代知識增強大語言模型,正式在百度總部“揮手點江山”會議室裡釋出。
在一片靜寂的氛圍裡,李彥宏小步登場,語氣裡帶著點緊張:
大家的期望值,是我們對標ChatGPT,對標GPT-4,這個門檻有點高(笑)。
十月懷胎,我們就帶大家來看看這個AI大模型文心一言長什麼樣。
此前,有人狂轉meme圖把百度比作GPT-4旁邊的箱子。
也有人鼓吹百度是全村的希望。
而在釋出會進行的同時,百度港股市值先是下跌,相關話題還衝上了微博熱搜,不過在會後又回撥了一波。
但直播彈幕中也有網友點贊:
那麼這個中國版ChatGPT到底實力如何?
我們們就用百度釋出會演示的預錄製Demo,對比一下嶄新出爐的GPT-4,先憑實力說話。
文心一言 vs GPT-4
和GPT-4一樣,文心一言是一個多模態大模型。
李彥宏開場就展示了文心一言具備的5種能力,包括文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。
文心一言甚至還現場秀了一口接地氣的四川話,現場網友發出一片笑聲:
其他能力如何?我們具體展開來看。
文學創作
在文學創作上,李彥宏一開場就搬出了《三體》作者劉慈欣坐鎮。
先讓文心一言介紹一下大劉,“畢竟我也是劉慈欣老鄉嘛”:
看起來沒什麼問題。同樣的問題問問GPT-4呢?
嗯???直接把劉慈欣的老家挪到了湖北省洪湖市。湖北人狂喜。
隨後,李彥宏又展示了從哲學的角度對這段文章進行續寫的demo:
看起來中規中矩,比較理性。老樣子,我們也來與GPT-4進行一波對比:
這波你是想看GPT-4續寫的《三體》,還是文心一言的?
再來看看《三體》電視劇中扮演史強和汪淼的老搭檔,於和偉和張魯一,有什麼共同點?
也沒什麼問題。
就是看起來展示的速度有點快,比李彥宏的語速還要快上那麼一點點(手動狗頭)。
商業文案創作
接下來,李彥宏又展示了一下文心一言在商業文案創作上的能力。
比如給新公司起個名字。
並且這個名字它還不是瞎起的:
再來看看GPT-4起名的效果?
看起來,GPT-4對中文的掌控能力相比之下還是少了一點精髓。
至於寫個公司成立的新聞稿?對文心一言來說似乎也不成問題:
數理邏輯推算
數學能力,是考驗生成式大模型的一大難題。ChatGPT剛上線時,也翻了不少車。
不過在現場,文心一言處理的數學問題不算複雜,是小學數學競賽常見的雞兔同籠問題。
彩蛋是,李彥宏現場展示的第一題,引得文心一言說出了《狂飆》裡高啟盛的經典臺詞:這題出得不對。
修改一下題目,OK,再扔給文心一言試試:
看起來,答案還算是有理有據,一步步邏輯推理出來的那種。
李彥宏表示,這些題“不敢說百分之一百能做對,但至少體現了文心一言的思考歷程”。
中文理解
接下來,李彥宏著重展示了一下文心一言對中文的理解能力,並特意強調:
文心一言對中國文化的瞭解,理應超出任何一個預訓練大模型。
一上來就是一個成語,“洛陽紙貴。到底有多貴?”
這是文心一言的效果展示:
還解釋了一下這個成語背後的經濟學原理:
那麼,將這個問題拋給GPT-4呢?首先問問它,知不知道洛陽紙貴是什麼意思:
接下來,再問問他對應的經濟學理論是什麼:
這波看起來,GPT-4的中文理解似乎也不輸文心一言啊。
那麼,再來看看二者寫藏頭詩的能力?
首先是文心一言的效果展示:
接下來,我們再看看GPT-4怎麼說:
誒,看起來反而是GPT-4沒有真正理解“藏頭詩”的含義。
這波文化理解上,屬實是文心一言“小勝一籌”了。
不過在英文上,李彥宏也承認,雖然文心一言也能處理,但能力是顯著不如中文的。
這也和百度目前能用到的訓練資料有關。
多模態生成
最後,李彥宏還簡單展示了一下文心一言多模態生成的能力。
首先來看看,為即將到來的2023世界智慧交通大會創作海報——
而除了前文展示過的文字轉四川話能力,文心一言還能文字轉影片。
李彥宏一句指令“將以上內容生成影片”,很快啊,不到幾秒鐘,文心一言就把字幕和影片做好了:
有些遺憾的是,在ChatGPT被頻頻稱讚的程式設計方面,文心一言並沒有現場展示相關能力。
但王海峰透露,文心一言的訓練資料中同樣包括程式碼。
文心一言如何“跑通”?
正如ChatGPT脫胎於OpenAI的GPT系列,百度這次推出的文心一言(ERNIE Bot),背後也正是基於文心大模型技術打造。
據王海峰介紹,文心一言主要脫胎於兩大模型:
百度ERNIE系列知識增強千億大模型,以及百度大規模開放域對話模型PLATO。
在此基礎上,主要採用了六項核心技術。
其中三個是廣為人知的大模型技術,包括有監督精調、人類反饋強化學習(RLHF)和提示構建。
p.s. 人類反饋強化學習也是ChatGPT的關鍵技術。
另外三個,則是“百度比較有特色”的技術,包括知識增強、檢索增強和對話增強技術。
首先來看與ChatGPT類似的技術:有監督精調、RLHF和提示構建。
有監督精調,尤其指中文方面的資料精調。百度基於對中國語言文化和中國應用場景的理解,篩選了特定的資料來訓練模型。
至於人類反饋的強化學習(RLHF)和提示構建,操作上也與ChatGPT大差不差。
隨後是百度提出的、用於進一步改善模型效果的技術。
知識增強,包括知識內化和知識外用兩個部分。其中,知識內化即將知識“滲透”進模型引數中;知識外用指的是模型可以直接使用外部的知識。
檢索增強,則與百度搜尋引擎積累的檢索技術有關。
百度將把檢索技術和生成技術結合起來,先對內容進行檢索後,將比較有用的部分用於生成,再整合輸出結果:
最後是對話增強部分,包括之前百度積累的記憶機制、上下文理解和對話規劃等技術:
概括來看,文心一言表現出的能力,被李彥宏稱為“智慧湧現”:
當引數達到千億量級,訓練語料達到足夠多的情況下,這種現象就會發生。
目前,百度擁有的AI技術可以分為四個部分,晶片(崑崙芯)、框架(飛槳)、模型(文心)和應用。
之所以軟硬體都要佈局,百度稱,是為了降低成本:
生成式AI需求的算力非常高,費用相當昂貴。
因此,如果在四層架構之間相互進行協同最佳化,就能讓它的效率比別人更高,從而顯著降低成本。
李彥宏認為,這也正是百度的優勢所在:
四層都有領先產品的公司,絕無僅有。
這次文心大模型背後的硬體算力,也是透過百度智慧雲提供服務。
目前,文心一言已經接入百度搜尋,目的在於提升搜尋資源效率。
同時,包括小度和自動駕駛Apollo等產品,以及愛奇藝等公司也已經接入百度的文心一言模型。
網友:看來還不用提前退休
截至發稿,百度港股股價在一波明顯下跌之後,有所回彈。
釋出會結束,網友反應最多的是“提前錄製有點敗好感”:
對於這一點,李彥宏的解釋是,給出的問題都比較長,為了節約現場時間,所以才用了提前錄製的形式。
還有不少網友對文心一言展示出的能力不太滿意。有人調侃,看完之後感覺“提前退休的日子看起來還可以緩一緩”:
離GPT-4還差了20個老胡。
還有網友感覺,文心一言的釋出會像極了畢業答辯的自己(doge):
不過也有網友表示,希望能給國產產品一點時間一點耐心。
釋出會末尾,王海峰宣佈,文心一言將從今天開始對外進行測試,包括個人使用者和企業使用者。
是騾子是馬,相信接下來,會得到更多驗證。
One More Thing
對了,有網友表示,已經拿到了文心一言的內測資格:
你好,感謝您體驗文心一言,體驗地址: ,希望您在體驗當中給予更多意見,文心一言邀請碼:KFCVME50RMB,2023年3月16日24:00前有效。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027828/viewspace-2940188/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【個人首測】百度文心一言 VS ChatGPT GPT-4ChatGPT
- 實測ChatGPT、Bing、文心一言ChatGPT
- 通義千問, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評測GPTdev
- 谷歌Gemini中文疑似套殼百度文心一言谷歌
- LLM-文心一言:UTXO
- LLM-文心一言:connectTimeout , readTimeout
- 百度:文心一言的使用者量已超1億
- 在文心一言出生地,百度悄悄燃燒AI小宇宙AI
- LLM-文心一言:執行緒竊取執行緒
- LLM-文心一言:Zigbee、LoRaWAN、NB-IoT
- 文心一言外掛設計與開發
- 阿里版ChatGPT:通義千問pk文心一言阿里ChatGPT
- LLM-文心一言:什麼是電網WAMS?
- 圓心科技與百度文心一言達成合作,用科技為患者帶來更多服務價值
- 體驗文心一言“一鏡流影”功能,實現短影片批次製作
- 百度文心大模型API測試大模型API
- 呼叫文心一言API詢問httpx的使用方法APIHTTP
- 百度交重構一年成績單 10%的百度搜尋流量由文心一言的模型生成模型
- Cocos 將接入百度文心一言,擁抱 AIGC,擴充 3D 實時創作領域的想象空間AIGC3D
- 基於文心一言的生成式資料分析技術探索
- 新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題AI谷歌
- SegmentFault 思否宣佈將接入百度「文心一言」,提升開發者獲取知識的效率
- LLM大語言模型-ChatGPT、LLaMA、ChatGLM、文心一言、通義千問模型ChatGPT
- 長三角首個AI+工業網際網路產業基地啟動,百度文心一言來了!AI產業
- 百度:文心一言的累計使用者規模已超過2億 日均呼叫量也達到了2億次
- JS實現滑鼠點選愛心&繪製多邊形&每日一言功能JS
- 百度文心一言已完成4次技術版本升級 大模型推理成本降至原來的十分之一大模型
- 谷歌斷供華為:背水一戰,自研晶片系統將上線谷歌晶片
- 每日一言
- 博主一言
- 站上大模型制高點:我們給不輸GPT-4的文心大模型4.0,來了一場技術揭秘大模型GPT
- 百度文心(ERNIE)如何學習海量資料中的知識
- RTX 4090可跑、完全開源,最快影片生成模型問世,實測一言難盡模型
- 一文了解一線網際網路大廠的 Golang 單測最佳實戰經驗Golang
- 一文詳解ATK Loss論文復現與程式碼實戰
- 記錄一下效能測試實戰
- 一次壓測實戰的覆盤
- GPT-4 透過圖靈測試GPT圖靈