年關將近,全球 AI 大模型卻突然捲了起來。
就在本週,Kimi 的新模型開啟了強化學習 Scaling 新正規化,DeepSeek R1 用開源的方式「接班了 OpenAI」,谷歌則把 Gemini 2.0 Flash Thinking 的上下文長度延伸到了 1M。種種跡象表明,進入推理增強賽道的各位玩家正試圖在最近一兩個月卷出個高下。
1 月 24 日上午,百川智慧重磅釋出了國內首個全場景深度思考模型,把這一輪軍備競賽推向了高潮。
Baichuan-M1-preview 同時具備語言推理、視覺推理和搜尋推理三個維度的全面推理能力,各項能力在多個領域的主流開源、閉源評測集上表現出眾。
在 AIME 和 Math 等數學基準測試以及 LiveCodeBench 程式碼任務上,Baichuan-M1-preview 的成績超越了 o1-preview 等模型。
在視覺推理能力方面的 MMMU-val、MathVista 等權威評測中,Baichuan-M1-preview 超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。
目前,百川已經將 Baichuan-M1-preview 在百小應 App 中上線。一夜之間,百小應就具備了深度思考模式。
百川也展示了新模型在大量任務上的實際應用效果。在學術研究、軟體開發、醫療健康方面,Baichuan-M1-preview 的思考能力都展現出獨特優勢:
在數學推理和跨學科知識處理方面表現卓越,能夠解決複雜理論問題。
深入理解程式碼結構,提供精準的最佳化建議和除錯方案,顯著提升開發效率。
此外,醫療能力是 Baichuan-M1-preview 另一大亮點,它能像資深醫療專家一樣進行深度思考,構建嚴謹的醫學推理過程,搜尋到醫療資訊之後會對不同權威等級的證據進行專業分析與整合,並保證資訊的準確性。
透過嚴謹的病程推理,協助醫生進行診斷決策,為患者提供全面的分析和個性化建議。
深度思考大模型
捲到了醫療領域
從落地效果看,百川智慧的 M1 大模型可以說既有通用能力,又擁有專精的長板。
它解鎖了「醫療循證模式」。也就是說,當使用者使用 Baichuan-M1-preview 回答複雜醫學問題時,模型能像「循證醫學」(Evidence-based medicine)一樣,用專業可靠的醫療知識作為推理依據,透過「擺事實、講道理」的循證方式提供言之有物、有理有據的解答。
為此,百川智慧自建了涵蓋億級條目的循證醫學知識庫,囊括了國內外海量醫學論文、權威指南、專家共識、疾病與症狀解析、藥品說明等專業醫療內容,且以天為單位進行動態更新,及時收錄醫療領域的新突破、新進展。雖然擁有了資料量龐大的醫療知識庫,但是醫學知識多樣性強、因果關係複雜,尤其疊加了網際網路上搜尋到的資訊後,我們仍然可能會遇到部分醫學資料、醫學理論不一致的情況。面對這個關鍵問題,醫療循證模式還能運用醫學知識和證據評估標準,對證據進行多層分級,並對不同權威等級的證據進行專業分析與整合,識別各類權威資訊的來源和可信度,從而避免因資訊混雜導致的誤判,形成全面、連貫的醫學結論。這樣一套操作下來,大大提升了大模型進行醫療推理的可靠性。對於醫療領域的專業人士來說,Baichuan-M1-preview 的醫療循證模式首先在臨床場景中為他們提供了快速獲取跨學科、跨病種複雜臨床問題最新科研成果或權威指南的方式,能夠輔助疑難病症的診斷和治療提供,提升臨床決策效率。其次在醫學科研場景中,能夠幫助專業人士迅速檢索最前沿、最相關、最權威的研究成果,高效構建完整的領域知識體系,大幅提升科研探索的效率和質量。對患者來說,他們可以基於醫療循證模式查詢透過權威指南和科學研究推理總結的結論,獲取第二診療意見、提升與醫生的溝通質量,以及清晰、廣泛的科普支援。這一模式不只是提升了模型醫療結果的可信度,也為大模型在醫療等高度專業領域的落地應用指明瞭方向。對於 Baichuan-M1-preview 的小尺寸版模型 Baichuan-M1-14B,百川智慧選擇了直接開源。作為行業首個醫療增強開源模型,Baichuan-M1-14B 表現優異。在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等權威醫學知識和臨床能力評測上,它的成績超越了更大引數量的 Qwen2.5-72B-Instruct,與 o1-mini 也相差無幾。Baichuan-M1 系列善於透過深度思考來解決複雜推理問題,並且尤其擅長複雜醫療問題的推理。那麼,它是如何做到的?我們可以從 Baichuan-M1-14B 公佈的技術細節中做一些分析。為了有效提升醫療能力,Baichuan-M1 -14B 從資料到訓練再到對齊方法,應用了一系列創新思路。在資料收集方面,百川智慧投入了大量時間,針對不同場景做了非常細緻的資料收集,覆蓋公開和非公開的資料。從中 / 英文專業醫療論文、院內真實醫療病例、教材和書籍,再到海量詞條、知識庫等構成的知識圖譜,總共整理了萬億級 token 的嚴肅醫療資料。在此基礎上,百川還對全網資料進行了全面的分類和評估,在預訓練過程中執行嚴格的資料篩選策略以確保各科室的資料分佈均衡,保證模型能夠學到正確且有醫療價值的豐富資訊。同時進行的一項重要工作是資料合成,百川針對知識圖譜、病例、教材、指南、知識庫、專家共識、問診記錄、學術論文等涵蓋真實且濃縮的醫療知識和決策經驗的高質量資料,對每種型別資料設計了針對性的資料合成方案。藉助業界先進模型,百川生成了超千億 token 高質量醫療推理資料、資料形式豐富,包含了醫療複雜決策推理鏈條、決策依據以及問答對等多種形式。這些合成資料不僅具備多樣化的知識呈現形式,並且包含了大量與人類醫生真實決策一致的模擬思維過程,顯著提升了大模型的醫療推理能力。另外在通用性方向上,百川智慧構建了規模為 20T 的多語言資料集。其中包括 14T 英文資料、4T 中文資料,以及 2T 覆蓋全球前 30 大主流語言的多語言資料。邁過資料門檻,來到模型的訓練階段。百川智慧運用行業首創的多階段領域提升方案,將整個訓練分成了通識提升、醫療基礎知識提升、醫療進階知識提升三階段。- 通識能力提升。進行基礎語言模型建模,提升模型的基礎語言能力、常識等能力;
- 醫療基礎知識提升。不斷提升模型高階能力、如推理,數學等,並顯著提升醫療資料的比例;
- 醫療進階知識提升。進一步提升資料質量和難度,對更高階的醫療能力、如推理、邏輯、疑難雜症等進行進一步最佳化。
在這之後是給模型定三觀的對齊階段(Model Alignment)。在針對大模型的強化學習過程中,資料的質量與多樣性是模型效能提升的關鍵。為此,百川從多個領域精心收集並整理了偏序對(preference pairs)資料,這些資料覆蓋了廣泛的應用場景,旨在提升模型的全面能力。偏序對資料共約 100 萬條,涵蓋了多輪對話、指令跟隨、數學與程式碼、推理任務等。為了進一步提升模型的生成質量、邏輯推理能力和使用者偏好貼合度,百川設計了一套系統化的強化學習訓練流程,在監督微調(Supervised Finetuning)的基礎上分三步進行最佳化:- 首先是用 ELO(Exploratory Log-likelihood Optimization)進行思維鏈探索。與傳統強化學習方法不同,ELO 摒棄了對獎勵模型的依賴,直接最佳化生成路徑邏輯,避免了可能引入偏差的問題。ELO 在增強生成邏輯性和保持內容多樣性的同時,確保了思維鏈生成過程的穩定性與高效性,為後續訓練階段提供了優質的初始化模型。
- 隨後基於偏序對資料使用 TDPO(Token-level Direct Preference Optimization)方法對模型進行最佳化。理論分析表明,在 DPO 的最佳化框架中,KL 散度項用於約束生成模型與參考模型(Reference Model)之間的分佈差異。然而,由於 KL 散度的約束效應隨著句子長度變化不均衡,其對短句的約束較強,而對長句的約束則顯著減弱。這種不均衡可能導致生成模型在長句生成過程中偏離參考模型,影響生成結果的邏輯性與質量。TDPO 可以做到計算效率與效能兼備,在 ELO 訓練的基礎上,模型進行了一輪的 TDPO 訓練,能夠確保精準貼合使用者偏好,同時兼顧長短句子的生成質量。
- 在最終階段,百川 M1 採用了 PPO(Proximal Policy Optimization)方法進一步最佳化模型的生成策略。PPO 充分利用了 ELO 和 TDPO 階段的最佳化成果,將模型的生成策略從區域性的 Token 級別最佳化擴充套件至全域性的策略調整,確保模型能夠在多種任務中生成符合使用者需求的高質量文字。
在一系列獨有特性和高質量資料的加持下,Baichuan-M1-14B 以一個非常小的尺寸在通能能力尤其是醫療能力上實現了極佳的效果。Github: https://github.com/baichuan-inc/Baichuan-M1-14B
Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
NPU版本支援BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
在 GPT-4 推出之後,大模型技術發展一度面臨著資料和並行化的瓶頸,人們一直在探索預訓練 Scaling Law 以外的智慧擴充套件方式。直到去年 9 月,OpenAI 釋出主打「複雜推理」的 o1 大模型,指出了加強推理的前進方向。在 o1 出現後,我們只需要一個通用模型就能解決比此前科學、程式碼和數學特化模型能做的更難的問題。強推理大模型給所有人帶來了一次 GPT 式震撼,它從方法上證明了語言模型可以透過強化學習重現當年 AlphaGo 的成功 —— 給越多算力,就輸出越多智慧,一直到超越人類水平。從原理性的角度來分析,o1 的上線意味著 AI 能力的一個分水嶺 —— 大模型從此在回答很多複雜問題之前會進行仔細的思考,就像人類大腦的系統 1 和系統 2。如果說 AI 已經從僅使用系統 1(快速、自動、直觀、易出錯)進化到了可使用系統 2(緩慢、深思熟慮、有意識、可靠)展開思維和分析的話,它們就能夠解決很多此前無法解決的問題。但從另一個角度看,大模型接入「慢系統」也意味著更加複雜的訓練過程、高延遲與高推理成本。決心投入更高量級的研究資源之後,領域內希望達到的目標是,推理 Scaling Law 能迅速打破大模型解決問題能力的現有天花板。在 o1 推出之後,國內外頂尖 AI 公司紛紛跟進,百川智慧自然是其中之一。但與行業中其他單純追求通用推理能力的公司不同,它選擇了醫療這個獨特的切入角度。正如王小川所言,AI 醫療對大模型技術的需求幾乎沒有上限,其對知識、推理、多模態、情感感知、溝通共情等幾乎全部能力都提出了極高的要求。從某種意義上來說,AI 醫療完全可以等同於 AGI。用大模型構建「AI 醫生」,這注定是一條難走的路。越是難做的事情,越需要有人去實現,做難而正確的事,才能真正地推動 AI 技術的進步。