從騰訊大模型的「實用」路線,我們看到了企業應用AI的新方向

机器之心發表於2024-09-09

「現在每家公司都是 AI 公司,但引入 AI 之後,利潤真的能提高嗎?」

在針對 Transformer 作者、Cohere CEO Aidan Gomez 的一次採訪中,播客主持人 Harry Stebbings 問出了這樣一個問題。

圖片

Stebbings 提到,現在很多公司都在往產品中引入 AI,比如提供客戶支援的 Zendesk、筆記記錄軟體 Notion、提供設計服務的 Canva…… 但是選擇維持產品價格不變的 Canva 等公司卻擔心,自己的利潤不升反降,因為他們現在要為每個查詢付出更高的成本。Canva 甚至在最近的節目中直言不諱地表示,他們的利潤正在壓縮。

對於這一問題,Gomez 提到,其實企業不必過於擔心,因為 AI 的成本正在迅速下降,在提升客戶體驗的同時維持產品價格不變會是一個不錯的選擇,有利於擴大企業的使用者基數。

如果觀察一下國內外的 AI 市場,我們會發現 Aidan Gomez 的預測是有依據的。很多 AI 公司,尤其是技術實力雄厚的大廠,都在透過技術升級來降低模型成本、提高模型可用性,從而讓企業以更低的門檻使用 AI。

在國內,騰訊混元大模型走的就是這樣一條路線。這個從亮相時就強調「實用」標籤的大模型一直在持續進化。在剛剛過去的騰訊全球數字生態大會上,我們不僅看到了訓練、推理效率提升 1 倍多,但推理成本降低 50% 的新模型混元 Turbo,還看到了升級版的大模型知識引擎、影像創作引擎、影片創作引擎等大模型產品。

對於那些還在懷疑自己是否有能力引入 AI,以及引入 AI 之後能否保住利潤的企業來說,這些高價效比的模型以及低門檻、易用的大模型產品或許可以提供一個答案。

距 GPT-4o 僅 1.29%

混元 Turbo 拿下國內第一,價格還降了一半

效率提升,但成本不升反降的混元 Turbo 聽上去似乎很有吸引力,但模型質量怎麼樣呢?第三方中文大模型基準測評機構 SuperCLUE 釋出的《中文大模型基準測評 2024 年 8 月報告》提供了一個客觀的參考。

這個報告聚焦通用能力測評,測評方案由理科、文科和 Hard 三大維度構成。理科能力包括計算、邏輯推理和程式碼能力;文科任務覆蓋知識百科、語言理解、長文字、角色扮演、生成與創作、安全和工具使用;Hard 任務則側重於精確指令遵循以及複雜任務高階推理。

報告顯示,混元 Turbo 在理科、文科均居於第一名,在 Hard 任務上表現也相當出色,是國內唯一超過 70 分的大模型,僅與 ChatGPT-4o 有微小差距。

圖片

騰訊混元在 8 項核心任務上排名國內第一。

更重要的是,在這個模型釋出後,國內 TOP 1 大模型在中文領域的通用能力與國外領先模型的差距縮小到了 1.29%(總分相差 1 分左右)。而去年 5 月,這一數字還高達 30.12%。

圖片

所以,單從效能上來看,混元 Turbo 是可以滿足很多企業對模型能力的高要求的。

那訓練、推理效率提升超過 1 倍,推理部署成本下降 50% 是怎麼做到的呢?簡單總結就是:技術創新

混元技術團隊介紹說,相較於上一代混元 Pro MoE 大模型,Turbo 模型在資料最佳化之外自研了全新的萬億級分層異構 MoE 結構,在模型不同層採用不同的專家個數和不同的啟用引數量,最終用更多的專家數、更少的啟用引數量實現了更好的效果。

圖片

混元 Turbo 推理速度對比前代有明顯提升。

這樣的技術創新創造了更多的讓利空間,使得混元 Turbo 的定價(輸入和輸出價格)僅為混元 Pro 版的一半。目前,該模型已經在騰訊雲上線,企業和開發者可以透過 API 接入。

此外,騰訊混元的技術團隊還在研究中發現,其實 MoE 架構不只適用於語言模型,用來構建多模態大模型也是最佳選擇,因為它能夠更好地相容更多模態和任務,確保不同模態和任務之間是互相促進而非競爭的關係。

按照這個思路,他們構建了國內首個基於 MoE 架構的多模態大模型,而且以簡單、合理、可規模化的原則來設計這個模型。比如,該模型支援原生任意解析度,最高可支援的解析度達到 7K,而不是採用業界主流的固定解析度或切子圖方法。此外,它採用的簡單 MLP 介面卡也能比主流的 Q-former 介面卡損失更少的資訊。這些實用的升級無疑是在為進入產業應用場景做好充分的準備。

圖片

騰訊混元多模態大模型是業內首個支援超過 7K 解析度和任意長寬比圖片理解的多模態模型。

模型之外,產品實用性也升級到 Next Level

模型本身不是完整的產品,要搭很多能力。使用者要用得爽,不是簡單的『模型吐東西』。」在前段時間的一次採訪中,騰訊集團高階執行副總裁、雲與智慧產業事業群 CEO 湯道生分享了這樣一個觀點。

基於這種認知,騰訊雲其實不止打造了騰訊混元系列大模型,還圍繞這個大模型打磨了一系列精調工具鏈(基於 TI 平臺)和開箱即用的產品,包括大模型知識引擎、影像創作引擎、影片創作引擎等。

圖片

這些工具鏈、產品看似分散,其實組合到一起能解決很多問題。

就拿要求最苛刻的醫療場景來說。當下,很多人吐槽醫生人心冷漠 —— 病人揹著大包小包、坐了十幾個小時火車去看病,結果只能跟醫生溝通五分鐘,失落的心情可想而知。

但其實,醫生也很無奈,尤其是負責重症病人的醫生。因為他們每天要花大量時間去理清多維度、連續變化的患者資料,還要書寫病歷和病程記錄,分不出時間和精力去精細化地關懷每個病人。

圖片

為了解決這一問題,為重症醫療提供器械和解決方案的邁瑞醫療騰訊一起打造了首個重症大模型瑞智 GPT,並基於該模型開發了「病歷撰寫、患者個體化病情查詢、重症知識檢索」三個面向重症科室的大模型智慧應用。

這些應用可以幫助醫生靈活查詢患者的病情變化、自動撰寫病歷,還能為低年資醫生提供高年資醫生的重症知識和診療建議,極大地降低了醫生解讀大量連續變化的臨床資料的難度,緩解了撰寫病歷和病程記錄的工作負擔。

這個解決方案要打通醫院的病歷、生理引數、醫學影像、檢驗、護理、醫囑等多個資料介面,還要把這些資料充分利用起來,因此涉及騰訊為行業打造的多個工具和產品。

比如資料準備環節要用到資料清洗、標註等多項 TI 平臺上的能力,病歷的識別、資料的檢索離不開知識引擎中的 OCR 識別、語義切分、RAG、複雜表格處理等子能力(關於知識引擎,請參見《大模型進入「實用」時代!騰訊助力「銷冠」量產,5 分鐘建立智慧助手》)。

在生態大會上,這些工具鏈、產品也迎來了新一輪升級,在「實用」維度上又上了一個臺階。

其中,TI 平臺上線了多模態資料標註,支援文生文、圖生文、圖文改寫、圖文混合問答等全部細分任務型別。高質量的訓練資料是精調出一個可落地大模型的前提條件。TI 平臺的多模態資料集管理和資料標註能力,可大幅提升資料準備效率,提升最終效果。此外,針對 OCR 和工業質檢等相對成熟且使用廣泛的垂直場景,TI 平臺也進行了升級,比如可智慧反饋出模糊、反光等場景下的誤識別,可實現超複雜場景「0 漏檢」等。

圖片

圖片

TI 平臺的多模態資料標註功能。

知識引擎在使用者需求識別與理解、企業知識處理等能力上都有很大的升級。比如,技術團隊綜合運用向量檢索、摘要檢索、text2sql 多種技術手段,顯著提升了複雜大表的檢索及問答準確率。同時,他們升級了多模態知識解析、檢索、閱讀理解能力,實現讀懂文中的「資料圖」、「自然場景圖」、「圖文關係」。從騰訊大模型的「實用」路線,我們看到了企業應用AI的新方向

知識引擎的複雜大表檢索及問答準確率顯著提升。

影像創作引擎的影像風格化透過演算法升級大幅降低了人臉瑕疵;AI 寫真實現了免訓練技術突破,支援輸入一張照片,一鍵生成高畫質寫真藝術照,整體出圖耗時縮短 75%;商品背景生成的背景畫面真實度、商品分割細膩度、實物融合自然度大幅提升;模特換裝場景採用 3D 先驗方案,提升了重建人像效果。

圖片

影像創作引擎生成的風格化影像。

圖片

影像創作引擎生成的高畫質 AI 寫真照。

圖片

影像創作引擎生成的商品背景圖,實現了商品在不同場景的逼真效果展示。

圖片

影像創作引擎生成的模特換裝圖,高度保持了模特臉部和手部的細節,同時精確地將服裝版型與模特身體特徵對齊,確保換裝後的效果逼真自然,能直接用於電商等生產場景。

影片創作引擎新增了圖片跳舞、圖片唱演和影片轉譯等能力。其中,在圖片跳舞中,單段舞蹈的生成時間從 10 分鐘下降至 1 分鐘級別,同時支援轉身、側身等複雜舞蹈動作。圖片唱演可以支援一張人像圖片生成一段唱演影片。影片轉譯支援 15 + 小語種,覆蓋主流外語翻譯,可應用於影片本地化、跨境電商等場景。

圖片

人物跳舞自然度的提升得益於技術團隊基於 3D 身體重建技術進一步最佳化了演算法,畫面的真實度和自然度也有了明顯提升。從騰訊大模型的「實用」路線,我們看到了企業應用AI的新方向

唱演影片生成的人物的面部表情和情緒演繹都更加自然靈動。從騰訊大模型的「實用」路線,我們看到了企業應用AI的新方向

轉譯後的影片能夠保留說話人的音色特徵,同時實現說話人口型與目標語種一致的視聽效果。

引入最強 AI,做最有用的產品

回到文章開頭的問題 —— 企業引入 AI 真的是一個具有經濟效益的選擇嗎?在生態大會現場,易車研發平臺部總經理孫佑時分享了他們的經驗。

就拿看車這個常見的場景來說。以往,使用者線上看車基本就是開啟圖片或錄製好的影片,被動聽裡面的講解,缺乏現場看車的沉浸感。為了解決這個問題,易車和騰訊合作,基於內建在 TI 平臺的大模型,使用大模型精調工具鏈,精調訓練出「易車大模型」。這個大模型能為使用者提供 3D 看車、AI 解讀、AI 對比問答和 AI 搜尋等服務,增強了使用者獲取資訊的效率。據統計,這些功能上線後,使用者的停留時長有了 大幅提升

此外,我們看到,已經引入 AI 的企業也已經在下一個維度開卷。比如前文提到的 Zendesk 改變了傳統的 SaaS 收費模式,提出只有在聊天機器人獨立完成任務、不需要員工介入時,才會向企業收費。相信這會給還未引入 AI 或者引入的 AI 不夠強的同行造成一些壓力。

正如 Gomez 所說,如果你想擴大使用者群體,那就為他們提供目前最有用的產品。一旦使用者體驗提升,利潤自然就會隨之而來。更何況,AI 的成本確實在下降,能做的事情也越來越多。

而且,除了經濟效益,引入 AI 所帶來的社會價值是短期內難以衡量的,正如邁瑞醫療所做的事情一樣。

當然,這件事做起來沒有那麼容易,騰訊也是處在摸索階段。他們深知,「要搭建一套有用的智慧系統,大模型可能只是其中一個模組。」所以他們向著「開箱即用」的方向打磨大模型相關產品,致力於讓企業以最小的必要輸入來獲得最佳的大模型應用實踐。與此同時,他們也在從內部產品和外部客戶業務中努力找場景,讓技術和產品解決真問題。

大模型的未來也是一樣,技術仍然在持續迭代,而價值的產生一定是在真實的落地場景中。

相關文章