零一萬物API正式上線:支援輸入30萬漢字,看不懂《百年孤獨》的人有救了

机器之心發表於2024-03-14

2024 年,大模型領域的一個趨勢越來越清晰:重視最佳化,面向應用。

在去年的百模大戰中,科技巨頭、創業力量你追我趕,將大模型技術捲到了一個新的高度。有了強大的模型之後,更重要的是將這些能力輸出到現實中的應用場景,提升使用者體驗、構建生態。

正因此,大模型廠商們或是開源,或是推出模型 API,都是希望讓成果為開發者所用,以此為基礎設施構建起繁榮的大模型生態。

國內的大模型獨角獸公司零一萬物,也在今天正式釋出了 Yi 大模型 API 開放平臺。

圖片

零一萬物 API 開放平臺連結:https://platform.lingyiwanwu.com/

此次 API 開放平臺提供以下模型:

  • Yi-34B-Chat-0205:支援通用聊天、問答、對話、寫作、翻譯等功能。

  • Yi-34B-Chat-200K:200K 上下文,多文件閱讀理解、超長知識庫構建小能手。

  • Yi-VL-Plus: 多模態模型,支援文字、視覺多模態輸入,中文圖表體驗超過 GPT-4V。

實際上,在半個月前,零一萬物已經啟動了 Yi-34B-Chat-0205 和 Yi-34B-Chat-200K 兩個模型的邀測,很多開發者早就上手體驗過一波了。

我們圍觀了一下,發現了幾個亮點:

首先,200K 上下文確實強。就拿專業書翻譯這件事來說吧,前 HuggingFace 員工、Transformer 核心貢獻者 Stas Bekman 寫過一本名為《機器學習工程》的電子書。呼叫 Yi-34B-Chat-200K 之後,知乎知名技術作者「蘇洋」一天之內就完成了長達 264 頁的書籍翻譯工作。

圖片

圖片

圖源:使用零一萬物 200K 模型和 Dify 快速搭建模型應用 https://zhuanlan.zhihu.com/p/686774859

其次,在 Yi-34B-Chat-0205、Yi-34B-Chat-200K 之外,零一萬物開放平臺此次同期上新全新的多模態大模型 Yi-VL-Plus

Yi-VL-Plus 支援文字、視覺多模態輸入,面向實際場景大幅增強。多位使用者反饋:「中文體驗超過 GPT-4V。」

圖片

GPT-4V 連招牌都沒看明白。

此外,零一萬物 Yi 大模型 API 開放平臺和 OpenAI API 是相容的,遷移方案時的體驗應該也非常絲滑。

當然,Yi 大模型 API 到底能不能與 GPT-4 Turbo、Gemini 1.5、Claude 3 這些模型的表現一較高下,還需要更多開發者一起考察。

Yi 大模型 API 名額目前限量開放,零一萬物會為新使用者免費贈送 60 元,感興趣的開發者不妨申請體驗一下。

200K 上下文的大模型,有多能打?

在此前的內測中,最令人印象深刻的不外乎具有超長上下文視窗的 Yi-34B-Chat-200K。

對於大模型的落地應用,上下文視窗是一項非常關鍵的因素。過去一年裡,各家大模型的上下文視窗都在飛速擴充套件:OpenAI 把 GPT-4 的 32K 直接提到 GPT-4 Turbo 的 128K。谷歌的 Gemini 1.0 還是 32K,Gemini 1.5 Pro 馬上就升級到了 100 萬 Token。

前不久,Claude 3 將大模型 API 的上下文長度紀錄一下提到了 200K,還宣稱有能力開放 100 萬 Token 的上下文輸入(儘管目前僅限特定客戶)。

要完成更復雜的現實任務,模型需要能夠處理長篇的上下文。更廣闊的上下文視窗能顯著提升模型的理解深度,在生成內容或解答問題時實現更高的準確性和相關性。這是因為模型能夠「回憶」並參照較長的文字歷史,面對長文章、書籍的章節、複雜對話或其他需長期累積上下文的情境時,這種能力格外關鍵。

Yi-34B-Chat-200K 能夠處理大約 30 萬個中英文字元。我們可以拿文學類書籍來類比,32K 就像是一篇 2 萬字的短篇小說(比如《潛伏》原著),128K 大概是一部中篇小說的體量(比如《人間失格》),而 200K 則相當於《呼嘯山莊》、《百年孤獨》、《駱駝祥子》這類長篇著作了。

以下是 Yi-34B-Chat-200K 對經典文學作品《呼嘯山莊》的歸納總結,這部作品中文字數約 30 萬字,人物關係錯綜複雜,但 Yi-34B-Chat-200K 仍能精準地梳理和總結出人物之間的關係。

圖片

從行業應用的角度看,Yi-34B-Chat-200K 適合用於多篇文件內容理解、海量資料分析挖掘和跨領域知識融合等,為各行各業應用提供了便利。金融分析師可以用它快速閱讀報告並預測市場趨勢、律師可以用它精準解讀法律條文、科研人員可以用它高效提取論文要點等,應用場景非常廣泛。

有開發者對比了 Yi-34B-Chat-200K 和某同類模型,從下圖我們能看出,對於「請在 18 萬字報告中找到地緣政治風險」這一 Prompt,Yi-34B-Chat-200K 給出了正確答案「英國脫歐導致索尼總部搬遷,導致索尼歐洲業務連續性受影響」,而另外一個模型則表示「無地緣政治風險」,未能完成任務。

圖片

在另一項任務中,開發者要求某個大模型幫忙「撰寫文獻綜述」,結果,交上來的活只幹了一半:

圖片

切換到 Yi-34B-Chat-200K 之後,剛才卡住的任務馬上成功執行,篇幅控制、翻譯準確度、標註格式都符合要求。

圖片

實驗資料進一步印證了開發者內測過程中的直觀感受:在零一萬物針對其進行的「大海撈針」測試中,Yi-34B-Chat-200K 的效能提高了 10.5%,從 89.3% 提升到 99.8%。

圖片

拼中文體驗,這次贏的顯然是 Yi-VL-Plus

語言模型的持續進步往往也會為多模態大模型注入新的發展生機,尤其近幾個月以來,多模態領域迎來「井噴」,大家的目光再次聚焦到了多模態大模型的發展上來。

谷歌 Gemini 原生多模態、Anthropic Claude 3 首次支援多模態能力,隨之而來的是,多模態大模型對影像(包括其上文字)、表格、圖表、公式的識別、理解能力已經在整體上了一個新臺階。自然而然,這對其他大模型廠商提出了更高的多模態能力需求。

對於零一萬物來說,這既是挑戰,也是機遇。自成立以來,零一萬物在大模型多模態能力上的探索一直在推進,尤其中文場景表現亮眼。

1 月 22 日,零一萬物 Yi-VL 多模態語言大模型正式開源,包括 Yi-VL-34B 和 Yi-VL-6B 兩個版本,其中 34B 版本在針對中文打造的 CMMMU 資料集上的準確率緊隨 GPT-4V 之後,在開源多模態模型中處於領先位置。

現在,Yi-VL-Plus 多模態模型在原有 Yi-VL 基礎上迎來全方位升級,進一步提高了圖片解析度,支援 1024*1024 解析度輸入,不僅對圖片中文字、符號的識別、理解和概括能力得到前所未有的加強,在部分中文場景的實際體驗更是超越了 GPT-4V。眼見為實,我們來詳細對比一下開篇提到的這個圖文對話示例。

可以看到,Yi-VL-Plus 的回答言簡意賅,準確無誤,驗證了它對圖片中文字超強的識別能力;而 GPT-4V 看似回答了一大堆內容,實則廢話連篇,除了「羊肉湯燴麵」這個招牌之外,它給出的食物顯然是基於一般常識推理出來的,並不是它準確看到的。二者高下立判。

圖片

在更準確地搞定一般中文場景的圖片識別之外,此次 Yi-VL-Plus 的一大特點是大幅增強了對實際生產力場景的支援,既提高了圖表(Charts)、表格(Table)、資訊圖表(Inforgraphics)、螢幕截圖(Screenshot)中文字和數字 OCR 的識別準確性,讓模型「看得準」;又支援了複雜的圖表理解、資訊提取、問答以及推理,讓模型「答得透」。

我們同樣發現,在這些偏生產力場景的任務中, Yi-VL-Plus 的實際體驗依然要比 GPT-4V 更好。

我們來看下面這個中文「財務報表資料提取」任務,Yi-VL-Plus 沒有被不同部門的資料所迷惑,精確無誤定位並提取到了銷售部門各個季度的資料;而 GPT-4V 顯然被複雜的表格和柱狀圖資料難倒了,給出的資料中出現多達三處錯誤。

圖片

在另外一箇中文「圖表理解場景」中,Yi-VL-Plus(左)在準確性方面同樣擊敗了 GPT-4V(右),後者混淆了電商零售與本地生活服務的概念。

圖片

論「火眼金睛」,Yi-VL-Plus還是更強一點的。

當然,不止中文場景,Yi-VL-Plus 也能輕鬆處理英文「圖表資訊提取」任務,在答案准確性方面依然要強於 GPT-4V。

圖片

到了「臨門一腳」,GPT-4V還是出錯了。

在充分把握圖表資訊的基礎上,Yi-VL-Plus 還能釋放其他多模態能力,比如將圖表轉化為其他格式,詮釋了「技多不壓身」。

圖片

而在下面涉及專業知識學習與解讀的案例中,Yi-VL-Plus 同樣能給出有模有樣的專業回答。可以看到,Yi-VL-Plus 能夠結合歷史病歷和圖片資訊(脫敏資料),較好地完成對青少年心理健康水平解讀。

圖片

至此,我們大可以得出這樣的結論:中文社群終於迎來了一個效能強大的多模態大模型。尤其是對於普通使用者而言,在生產力場景下足功夫的 Yi-VL-Plus 能夠成為他們分析圖表、分類知識、彙總資料的絕佳輔助工具,對工作效率的提升顯而易見。

寫在最後

當今,大模型廠商想要在激烈的競爭中勝出,靠的不再只是炫「冷冰冰」的榜單資料,還要不斷降低模型使用門檻,為使用者「減負」。自然而然,開放 API 成為了很多廠商的選擇。

從成立至今,零一萬物一方面堅持向公眾開源 Yi 系列模型,為開源社群貢獻自己的技術力量;另一方面又希望透過開放 API 讓包括開發者在內的更多人用上強大的對話、多模態大模型,或用來創作或用於工作,這樣反過來又將促進這些模型在更多應用場景中的落地,形成雙贏局面。

此前,零一萬物 CEO 李開復博士曾表示,零一萬物將在 Yi 系列大模型的基礎上打造更多 To C 超級應用。此次在開放對話、多模態模型 API 的同時,還強調了開發者工具對促進大模型應用創新的作用,雙管齊下,為實現這一目標做好了充足的準備。

零一萬物表示,近期將為開發者提供更多更強模型和 AI 開發框架。主要亮點包括:

- 推出一系列的模型 API,覆蓋更大的引數量、更強的多模態,更專業的程式碼/數學推理模型等。

- 突破更長的上下文,目標 100萬 tokens;支援更快的推理速度,顯著降低推理成本。

- 基於超長上下文能力,構建向量資料庫、RAG、Agent 架構在內的全新開發者 AI 框架。旨在提供更加豐富和靈活的開發工具,以適應多樣化的應用場景。

顯然,零一萬物在自家大模型的發展方向上已經有了成熟的思路,未來也勢必會走得更遠。

相關文章