中文OCR超越GPT-4V，引數量僅2B，面壁小鋼炮拿出了第二彈

机器之心發表於2024-04-12

原文網址 : https://www.jiqizhixin.com/articles/2024-04-12-10

OpenAI後，大模型新增長曲線來了。

大語言模型的效率，正在被這家「清華系」創業公司發展到新高度。

從 ChatGPT 到 Sora，生成式 AI 技術遵從《苦澀的教訓》、Scaling Law 和 Emerging properties 的預言一路走來，讓我們已經看到了 AGI 的冰山一角，但技術的發展的方向還不盡於此。

最近一段時間，科技公司大力投入生成式 AI，一系列新的概念正在出現：手機廠商認為「AI 手機」正在引領手機形態的第三次轉變；PC 廠商認為「AI PC」可能會改變個人電腦的形態；而對於更多科技公司來說，AI 進入 2.0 時代後，所有應用「都應該重寫一遍」。

這些改變遊戲規則的事物，背後隱含著一個邏輯：AI 大模型需要快速覆蓋大量場景。而對於算力有限的端側而言，最佳化是重中之重。從應用落地的角度看，輕量級、MoE 大模型已經成為人們重要的探索方向。

面對逐漸增多的生成式 AI 落地需求，「清華系」創業公司面壁智慧一直在致力於對語言模型進行最佳化，使其在同等成本下達到更好的效果。

今年 2 月 1 日，面壁智慧釋出的第一代 2B 旗艦端側大模型 MiniCPM，不僅超越了來自「歐洲版 OpenAI」Mistral 的效能標杆之作，同時整體領先於 Google Gemma 2B 量級，還越級超越了一些業內標杆的 7B、13B 量級模型，如 LLaMa2-13B 等。

僅僅 70 天以後，端側大模型面壁 MiniCPM 小鋼炮的第二彈乘勝追擊，迎來多模態、長文字、MoE 等領域模型的迭代，主打的就是「小而強，小而全」。

把大模型做小，不止是提高效率

4 月 11 日，面壁智慧正式釋出了新一代 MiniCPM 系列模型，包括四個模型：

OCR 能力驚豔，當前端側最強多模態模型MiniCPM-V 2.0；
適配更多端側場景，僅 1.2B 的基座模型 MiniCPM-1.2B；
最小的 128K 長文字模型 MiniCPM-2B-128K；
效能進一步增強的 MoE 架構模型 MiniCPM-MoE-8x2B。
MiniCPM-V 2.0 開源地址：
https://github.com/OpenBMB/MiniCPM-V
小鋼炮全家桶系列開源地址：
https://github.com/OpenBMB/MiniCPM
小鋼炮全家桶技術 Blog 地址：
https://openbmb.vercel.app/?category=Chinese+Blog

這些模型的具體表現如何？我們可以從真實評測資料和實際任務表現兩個方面一探究竟。

首先是近來各個大模型廠商都極力主推的多模態能力。面壁智慧此次釋出了能跑在手機上的「最強端側多模態大模型」MiniCPM-V 2.0，引數規模僅為 2.8B，但在與引數遠超自己的競品模型較量中實現越級勝出。

其中在 OpenCompass 榜單中，綜合 11 個主流評測基準的結果表明，MiniCPM-V 2.0 的通用多模態能力超越了 Qwen-VL-Chat-10B、CogVLM-Chat-17B 和 Yi-VL-34B，讓我們看到了「小身板也能蘊藏強大能力」。

模型通用能力越強，意味著幻覺水平越低，事實準確性越高。因此，MiniCPM-V 2.0 大大降低了自身幻覺水平。

在評估大模型幻覺的 Object HalBench 榜單中，幻覺水平與 GPT-4V 持平（見圖上）。下面是實測的一次看圖說話任務，MiniCPM-V 2.0 出現了 3 處幻覺，GPT-4V 出現了 6 處幻覺（見圖下高亮紅字）：

除了越來越強大的通用能力，在 OCR（光學字元識別）這一多模態識別與推理能力的硬性指標上，MiniCPM-V 2.0 更有亮眼的表現，在精準識別圖片中物體的同時，對包括古文字在內的文字元號的識別迎來了史詩級加強。

比如讓該模型識別清華大學收藏的「清華簡」竹簡上的古文字，它輕鬆搞定了簡單字（下圖左）和複雜字（下圖右）的識別。

此外，MiniCPM-V 2.0 在 OCR 綜合能力榜單 OCRBench 上重新整理開源模型 SOTA 表現；還在場景圖片文字識別榜單 TextVQA 上超越全系 13B 量級通用模型，其中文字理解表現越級比肩了業界王者谷歌 Gemini Pro，讓我們驚歎它的進化之快。

評測資料如此之強，讓 MiniCPM-V 2.0 面對一系列 OCR 場景經典難題時毫無壓力。傳統大模型只能處理 448×448 畫素固定的小圖，對於包含海量資訊的更精細圖片識別則力有不逮。對於構圖繁複、細節豐富的街景識別，MiniCPM-V 2.0 模型抓全景、抓細節、抓重點的能力顯然更勝一籌。

此外還有傳統大模型往往表現不佳的長圖識別，其中包含的大量文字資訊對模型構成了巨大挑戰。而 MiniCPM-V 2.0 能夠更穩、更準地捕獲長圖重點資訊，進行摘要總結，這是之前的模型無法做到的。

當然，在中文 OCR 場景任務的表現上，MiniCPM-V 2.0 超越了 GPT-4V，能後者之所不能。

面壁智慧將「小」做到極致，推出了一款體量更小的模型 ——MiniCPM-1.2B，號稱「小小鋼炮」。模型引數雖然較上一代 2.4B 模型減少了一半，但仍保留了其 87% 的綜合效能。

同樣用資料說話，在 C-Eval、CMMLU、MMLU 等多個公開權威評測榜單上，綜合效能越級超越了 Qwen1.8 B、LLaMa2-7B 甚至是 LLaMa2-13B，展現出了更小模型擊敗大模型的巨大潛力。

更小引數意味著更有利於手機等端側裝置上部署和執行。活動現場，面壁智慧演示了 MiniCPM-1.2B 在 iPhone 15 上流暢的執行效果，推理速度提升 38%，達到了 25 token/s，是人說話速度的 15 到 25 倍。

當然，模型尺寸減小不僅有利於端側落地，記憶體成本也得到顯著降低。在 iOS 系統端，MiniCPM-1.2B 的記憶體用量（1.01G）比 MiniCPM-2.4B 量化模型（2.1G）減少了 51.9%，折算成本下降了 60%（1 元 = 4150000 tokens）。

1.2B 的體量讓語言模型的應用範圍不在僅限於旗艦手機，極致的最佳化讓模型的體量更小，使用場景卻大大增多了。尤其對於想要在端側部署大模型的手機廠商來說，MiniCPM-1.2B 是個不錯的選擇。

MiniCPM「小鋼炮」同樣強化了長文字理解能力。此次推出的 MiniCPM-2B-128K 成為了支援 128K 上下文視窗的最小體量模型。

其中在 InfiniteBench 榜單的平均成績較量中，MiniCPM-2B-128K 以 2B 的「小身軀」超越一眾 6B、7B 量級模型，比如 Yi-6B-200K、Yarn-Mistral-7B-128K，實實在在做到了「量小質高」。

關於長文字模型的下一步探索方向，面壁智慧表示，同樣會在端側的部署和執行上發力。

多模態和長文字保證了 MiniCPM 模型能力的基本盤，而混合專家模型（MoE）架構的引入讓該系列模型的能力更上一層樓。全新 MiniCPM-MoE-8x2B 模型將第一代 2B 模型的平均效能提升了 4.5 個百分點，並且相較於完全從頭開始訓練，訓練成本大大降低。

該模型的平均啟用引數雖然只有 4B，但在 BBH、MMLU 等 12 個權威評測基準上的平均成績取得了第一，甚至擊敗了 LLaMa-34B，而推理成本僅僅為 Gemma-7B 的 69.7%。

至此，面壁智慧將覆蓋多模態、長文字、MoE 架構的新四「小」模型一一鋪開，充分挖掘小體量大模型的全方位能力，在一眾更大引數規模的競品模型中成功突圍。

能力突圍背後，藏著一系列獨門技術

今年 2 月 MiniCPM 第一代的釋出會上，面壁智慧聯合創始人劉知遠曾表示：「我們會在春節之後不斷髮布 MiniCPM 的新版本，效能還會進一步提升。我們要給大家春節的休息時間。」幾十天后，面壁智慧果然拿出了亮眼的成績。

當然，這一切離不開面壁智慧厚積薄發的獨門技術實力。

先以 MiniCPM-V 2.0 展現的超強多模態能力來說，該模型面對一系列 OCR 場景的經典難題都給出對應的高效技術解決方案。

比如上文展示的更精細圖片識別和長圖識別，都要得益於高畫質圖片、高效編碼和任意寬高比影像無損識別，使得對小物體和光學字元等細膩視覺資訊的感知能力大大增強，可以處理最大 180 萬畫素高畫質大圖，甚至 1:9 極限寬高比的高畫質圖片，對它們進行高效編碼和無損識別。

做到這些靠的是面壁智慧的一項獨門技術 —— LLaVA-UHD，它包含了三大重要元件，即模組化視覺編碼、視覺壓縮模組和空間修飾方法，它們發揮的作用分別如下：

模組化視覺編碼負責將原始解析度影像劃分為可變大小切片，並且無需畫素填充或影像變形即可實現對原始解析度的完全適應；
視覺壓縮模組使用共享感知器重取樣層壓縮影像切片的視覺 tokens，無論解析度多少 token 數量皆可負擔，計算量更低的同時支援任意寬高比影像編碼；
空間修飾方法則使用自然語言符號的簡單模式，有效告知影像切片的相對位置。

三位一體、相輔相成，讓高畫質影像、高效編碼成為可能。

此外，MiniCPM-V 2.0 還具備了獨家的跨語言多模態泛化技術，讓大模型可以用中文解讀英文選單並給出推薦。

不僅如此，跨模態跨語言泛化技術還解決了中文領域缺乏高質量、大規模多模態資料的挑戰。團隊提出的 VisCPM 可以透過英文多模態資料的預訓練，進而泛化實現優秀的中文多模態能力。

VisCPM 論文地址：https://arxiv.org/pdf/2308.12038.pdf

與此同時，在 MiniCPM-2B-128K 上，團隊透過多階段訓練方法，在訓練過程中使用課程學習、動態調整資料配比等技術，組合使用多種長文字擴充套件方式，成功將模型的上下文長度擴充套件至 128K。這一過程既提高了訓練效率，又儘可能減少了對短文字處理效能的損失。面壁智慧表示，未來還將進一步擴充套件模型的上下文長度。

MiniCPM-MoE-8x2B 模型採用了最前沿的 MoE (混合專家模型）架構，這一架構能在不增加推理成本的情況下為大模型帶來效能激增。

MiniCPM-MoE-8x2B 模型總共包含 8 個 expert，全引數量（non-embedding）為 13.6B，每個 token 啟用其中的 2 個 expert，啟用引數量（non-embedding）為 4B。

掌握新的 Scaling Law

在眾多投身大語言模型的創業公司中，專注於「小模型」方向的面壁智慧，早已總結出了自己的一套打法。

2020 年，OpenAI 一篇論文《Scaling Laws for Neural Language Models》對於 transformers 架構的大模型表現與訓練時間、上下文長度、資料集大小、模型引數量和計算量的關係進行了討論。其提出模型的表現與規模存在強相關，這就是「Scaling Law」。

^{隨著我們增加模型體量、資料集大小和訓練算力，語言建模的效能平穩提高。為了獲得最佳效能，所有三個因素必須同時擴大。當其中一個因素受限時，模型表現隨另外一個因素增加變好，但效果會逐漸衰減。（圖片來自 OpenAI）}

隨著之後 GPT-3、GPT-4 的推出，OpenAI 遵循著這樣的規律進行探索，為生成式 AI 帶來了突破性的進展。眾多科技公司、創業公司也紛紛入局，投入構建千億級，甚至萬億級引數大模型的行列中。

但在大模型的世界中，引數量大，並不一定等於效能更好。今年 3 月 17 日，馬斯克的 xAI 正式開源了 3140 億引數的混合專家（MoE）大模型 Grok-1，成為了當前引數量最大的開源大語言模型。然而僅過去不到兩個星期，Databricks 開源的 1320 億引數通用大模型 DBRX 就在多個基準上打敗了它。

今年初的 AI 頂會 ICLR 2024 上，面壁智慧等機構被接收的論文《Predicting Emergent Abilities with Infinite Resolution Evaluation》引發了人們對 Scaling Law 的新理解。

在這項研究中，研究人員發現小模型雖然效能有限，但表現出關鍵且有一致性的任務效能改進趨勢，而由於測量解析度不足，傳統的評估策略無法捕獲這些改進。在新的評估策略支援下，人們發現了一種加速湧現，其標度曲線不能用標準標度律函式擬合，並且具有遞增的速度。

面壁智慧 CTO 曾國洋表示，其團隊從 2020 年 GPT-3 釋出後開始訓練大模型，逐漸認識到「提升模型效果是大模型訓練的根本目標，但這並不意味著一定要透過擴大引數量規模和燃燒高昂的算力成本來實現。」相反，讓每一個引數發揮最大作用，在同等引數量上實現更好的效能，才是解決大模型效率問題的核心。

面壁智慧的語言模型探索，也是一直圍繞著小體量、高效能的目標展開的。

今年 2 月釋出的「效能小鋼炮」MiniCPM，作為全球領先的輕量高效能大模型，標誌著面壁大模型高效訓練模式的徹底跑通。獨特的面壁「模型沙盒實驗」，透過對大模型訓練過程進行環境建、並對最佳模型訓練結果進行精準模擬預測，成功打造出高效 Scaling Law 曲線 —— 同等引數量條件下效能更優、同等效能情況下引數更小。

2 月釋出的 MiniCPM 2B 在更小引數量的基礎上可以實現媲美 Mistral-7B 的效能，進一步驗證了其「低引數、高效能」的方法論。

而在最近，面壁智慧的技術已經可以做到把中文 OCR 水平媲美 GPT-4V 的模型塞進手機，新 Scaling Law 的路線已經逐漸清晰。

面壁智慧在探索「高效」這件事的過程中，以源源不斷的世界級前瞻研究成果，佈局了貫徹高效訓練、高效落地與高效推理的大模型全棧技術生產線。

從清華自然語言處理實驗室（THUNLP）走來，務實，但專注於有引領性方向的研究，是面壁大模型團隊的標籤。

實際上，這個團隊多年來對於 AI 技術路線作出了很多次精準的預言式判斷：從 2018 年投入 BERT 技術路線，2020 年率先擁抱大模型，2023 年初對 AI 智慧體（Agent）的超前探索，千億多模態大模型 CPM-Cricket 的釋出，再到對大模型端雲協同的前瞻佈局。在競爭激烈的生成式 AI 領域，面壁超前的 Al 技術研判策略，逐漸收穫了業內的認知與認同。

結語

目前，面壁智慧已經組建起 100 餘人的科研團隊，其中 80% 人才來自清北，平均年齡 28 歲。

MiniCPM 新的探索，也在引領大模型領域的下一階段發展。如果從效率的角度來看，面壁或許會是速度更快的那一個。

在昨天的釋出會上，面壁智慧正式宣佈完成了新一輪數億元人民幣的融資，由春華創投、華為哈勃領投，北京市人工智慧產業投資基金等跟投，知乎作為戰略股東持續跟投支援。新一輪融資，將被用於加快推動大模型的高效訓練、快步應用落地。

面壁把大模型做小，不僅是為了端側的快速落地：透過 MiniCPM 系列模型等工作，能夠實現 AGI 的通用基座大模型已有了更深厚的基礎。基於 Scaling Law 的科學方法論，透過把大模型做小驗證出高效大模型的框架，更加強大的 AI 正在路上。

端側版GPT-4o問世，面壁小鋼炮實現端到端、全模態實時對話
2025-01-16
GPT
引數量不到10億的OctopusV3，如何媲美GPT-4V和GPT-4？
2024-05-01
GPT
8200元高價效比小鋼炮電腦主機配置推薦小機身高效能
2018-10-11
i5-8400配B360高效能小鋼炮遊戲配置推薦
2018-04-23
遊戲
新一代四核小鋼炮：英特爾 i3-13100 處理器曝光
2022-10-12
效能媲美BERT，引數量僅為1/300，谷歌最新的NLP模型
2020-09-22
谷歌模型
JS forEach()第二個引數
2019-02-15
JS
如何訓練2457億引數量的中文巨量模型“源1.0”
2021-12-03
模型
Nginx編譯引數大全 configure引數中文詳解
2019-03-05
Nginx編譯
livewire 中wire:click=test('中文引數')引數報錯
2021-03-06
一個小技巧，VNPY策略引數優化時候顯示完成數量和總數量
2020-09-11
優化
小鋼聊全棧
2019-02-21
全棧
5000元六核獨顯迷你遊戲電腦主機配置推薦 R5-2600效能小鋼炮
2018-09-07
遊戲
歷史時刻：DeepSeek GitHub星數超越OpenAI，僅用時兩個月
2025-02-07
GithubOpenAI
小程式內引數和掃碼引數統一
2023-04-15
Python快速入門第二彈合法的變數名
2020-11-08
Python變數
WormHole分析第二彈
2020-08-19
Worm
新生答疑第二彈
2024-08-18
RestSharp 元件第二彈
2024-08-20
REST元件
unity3D 兩點拋物線模擬炮彈
2018-06-02
Unity3D
小技巧大功效，「僅閱讀兩次提示」讓迴圈語言模型超越Transformer++
2024-08-04
模型ORM
谷歌開源最強端側小模型：2B引數越級跑贏GPT-3.5-Turbo，蘋果15Pro執行飛快
2024-08-01
谷歌模型GPT蘋果
OCR文字識別工具：OCRKit Pro中文
2022-10-20
面壁智慧獲新一輪數億元融資，高效端側智慧持續引領行業發展
2024-12-11
行業
layer開啟彈窗時傳遞引數(content:)
2019-02-16
pandas引數設定小技巧
2020-08-22
萬元AMD銳龍R7-2700X搭配RTX2060高階電腦配置推薦 ITX小鋼炮裝機
2019-04-02
世界鋼鐵協會：2020年4月全球粗鋼產量
2020-05-26
第二類斯特林數小記
2024-12-09
數量性狀遺傳引數的提出
2024-05-15
kendo-ui彈窗window外掛引數及方法
2020-05-09
UI
ARC 雜記第二彈
2024-10-14
關鈣繼忌量僬盼喬縛炮
2022-03-18
鋼鐵三廢數字治理，助力打造綠色鋼廠
2023-03-08
PHP 函式可變數量的引數列表
2019-02-16
PHP函式變數
馬斯克的首款多模態大模型來了，GPT-4V又被超越了一次
2024-04-15
馬斯克大模型GPT
layui 子彈窗獲取父頁面的引數傳參
2019-07-05
UI
GET請求引數為中文時亂碼分析
2018-11-22

中文OCR超越GPT-4V，引數量僅2B，面壁小鋼炮拿出了第二彈

相關文章