長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出

机器之心發表於2024-10-13

善智者,動於九天之上。


善智者,啟於十年之前。十年系統性人工智慧創新,中國移動九天善智多模態基座大模型以其全棧國產化、複雜系統智慧化的卓越效能,讓 AI 不僅會 “作詩”,也要會 “做事”,還能做 “更復雜更具創造性的事”。

10 月 12 日,在第十二屆中國移動全球合作伙伴大會主論壇上,中國移動釋出了最新的九天善智多模態基座大模型,全面解析了九天系列大模型的亮點能力、特色技術。

四大亮點:九天善智多模態大模型的強大功能解析

中國移動將新發布的多模態大模型命名為 “善智”,在人工智慧高速發展的時代,平衡 “大善” 與 “大智” 至關重要。這一命名體現了中國移動追求技術卓越與社會責任並重的理念,使大模型不僅文理兼修、德藝雙馨,更能普惠應用,進而創造人類文明新的福祉。

據瞭解,中國移動九天系列大模型包括九天善智多模態大模型、九天眾擎語言大模型、九天智繪視覺大模型、九天語荷語音大模型、九天數童結構化資料大模型等,可以提供 1.5B、3B、8B、13.9B、100B、200B 等不同引數量的模型版本,模型效能實現整體飛躍!

圖片

在國際競賽中,中國移動九天模型表現可謂十分突出。不僅在 2024 年 INTERSPEECH 語音合成聲碼器賽道中獲得國際第一名,也在 2023 年獲得 CVPR VSS(視覺語義分割)賽道中視覺理解方面的第一名。

此外,大模型多項關鍵技術指標在國際主流榜單中取得優秀名次。根據最新測評資料,多工語言理解能力在權威 BBH 榜單上名列第二名,影像內容理解對話、影片內容理解對話、文生影片分別在 MME-P 榜單、MVBench 榜單和 VBench 榜單位列第三名,程式碼生成在 MBPP 榜單位列第二名,數學推理排名第四,綜合能力在司南 Opencompass 多模態模型評測榜單(閉源模型)名列前茅,平均分 64.2。

長文字、全雙工、機器視覺和結構化資料等多模態是走向通用智慧的必經之路。這次九天善智多模態基座大模型的全面升級在這四個賽道均取得了不俗的技術突破:

圖片
長文字理解與生成,賦能產業態勢感知

九天善智多模態基座大模型能夠支援處理複雜的任務資料收集並深度解析給出專業報告,目前已擴充至 128K 超長上下文的理解與生成。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出

長文字理解與生成

在本次大會主論壇上,九天善智多模態大模型展示了其基於可信資料的高效文件資訊收集與秒級分析能力。該模型能夠迅速提煉行業資料中的關鍵資訊,並以直觀的文字、柱狀圖、折線圖等視覺化形式生成通訊產業月報。不僅如此,它還能解讀國內外及地方政府釋出的相關政策,並透過自動化專家訪談機制不斷完善報告內容,確保報告修訂過程透明可追溯,助力企業實現高效決策。

全雙工語音互動,實現 “邊聽邊說” 的自然對話

九天善智多模態大模型支援全雙工語音互動,即使使用者隨時打斷,也能保持對話的連貫性和一致性,實現自然流暢的互動體驗。這一特性顯著增強了模型與人類交流的自然度和流暢性,使對話更加貼近日常交流方式。目前,九天大模型不僅支援多模態輸入與生成,還能實現實時的語音到圖片轉換;語音指令即可觸發聯網搜尋並實時總結資訊。使用者可以從天氣查詢無縫切換至美食推薦,此外,它還能輕鬆管理日程,化身您的超級小助手,讓生活變得更加便捷高效。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出

全雙工語音互動

在現場影片演示中,移動員工透過全雙工語音互動進行日程管理,實現赴廣州參加中國移動全球合作伙伴大會的機票預定、會議議程問答和電話提醒多種場景服務,演示中,工作人員還即興打斷,詢問了股市的實時狀況,並同時生成了一張廣州塔的夜景圖留作紀念,展現了無縫切換話題與即時響應的卓越能力。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出

全雙工語音互動

影片與影像處理的雙重飛躍,成為視覺創作 “魔術師”

憑藉自主研發的 JTVLM 架構,中國移動創新性地融合了多模態深度表徵、精細化特徵對齊與多層次自迴歸最佳化策略,引入 P-LoRA 跨模態訓練方案,使大模型在影像感知、檢測、理解、推理等多樣化下游任務中展現卓越效能。此外,透過自研擴散 Transformer 去噪網路與 3D VAE 重建模型,大幅提升了影片畫質、連續性、文字與畫面一致性等核心指標,實現全方位的技術突破。

在主論壇上,九天善智多模態基座大模型透過 “廣州早茶” 和 “小貓和小狗玩,貓臉部特寫” 兩個提示詞,與業界其他模型進行了文生圖表現對比。結果顯示,九天模型展現了更為複雜的視角和構圖能力,光線光影協調運用能夠在符合美學前提下捕捉更多關鍵細節,在指令遵循方面也有更優異的表現。

圖片

圖片
在文生影片方面,不論是包含 “廣州早茶店、小蠻腰、煙花” 等元素的城市宣傳片,還是 “藍天白雲、森林、小溪、礦泉水” 元素的商業廣告片,抑或是 “珊瑚礁、魚群” 元素的海洋生態環保影片,九天善智多模態基座大模型能夠靈活運鏡,透過特寫、近景、中景和遠景的充分排程呈現光影流動,讓多個主題畫面和諧一致,同時生成配樂,讓創意無限延伸,不斷突破想象邊界。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出

文生影片

中國移動此次釋出的多模態大模型不僅體現在語言到視覺,也能從視覺到語言,具備高效精準、多場景識別、動態追蹤等諸多能力,能夠精準理解分析生產生活等豐富場景。在現場影片中,它可以多種語言解讀影片裡多個人物的動作、表情、互動狀態和環境,精準捕捉到家庭聚會中各個成員的 “微笑、親吻動作、拍照姿勢”,還能準確判斷工人的爬塔動作,以及工人著裝是否符合要求等。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出
影片理解

結構化資料能力,實現業務精準分析預測

九天善智多模態基座大模型創新實現跨領域結構化資料通用表徵建模、大模型多工訓練和推理框架,覆蓋通訊、交通、工業、金融營銷、醫療等 11 + 行業領域,已經在多個行業深度使用。在主論壇上,九天善智多模態基座大模型對長沙橘子洲頭的通訊資料進行理解分析、視覺化展示和未來趨勢推理預測,並在模擬系統呈現了預測資料的真實覆蓋情況。長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出
結構化資料

目前,結構化資料能力已經支援通訊、交通、能源行業等流量預測、指標異常檢測、使用者營銷推薦和能耗最佳化等場景的典型任務。即便在零樣本或者少樣本的情況下同樣能出色實現跨域應用,服務複雜系統智慧化,為業務決策提供了前瞻性依據,助力產業及時、精準地調整策略。藉助其強大支援,產業就像是裝上了強大的資料引擎,邁著堅實的步伐從數字化走向智慧化。

技術揭秘:九天善智背後的國產化與體系化 AI 創新

九天善智多模態基座大模型的超強實力,得益於中國移動獨有的技術秘籍和實戰經驗。

在國產化方面,為了擺脫 “缺芯少魂” 的問題,九天大模型的訓練和推理已經全面轉向了國產,實現從晶片、演算法到框架的全棧國產化,萬卡訓練能力可以做到連續穩定訓練時長超過 480 小時,並支援在三類訓練晶片算力叢集間的平滑轉化和續訓,在推理方面,目前已對 11 個廠商的 17 款晶片進行適配、遷移和測試及標準拉齊。

圖片

在科研創新方面,原創性提出體系化人工智慧(Holistic AI)技術以提供泛在可控的社會級智慧服務,原創性提出體系化人工智慧(Holistic AI)技術,主要研究對 AI 技術進行體系化重構所需的理論、技術、 機制、正規化和框架,基於 AI 服務大閉環、AI 能力原子化重構、網路原生 AI 及安全可信 AI 等技術特徵,利用無處不在的網路和強大的算力,可以隨時調整和分配 AI 的各種技能,應對不斷變化的需求,就像在繁忙的城市中靈活排程交通資源,確保每個地方都能得到及時高效的服務。

圖片

在複雜系統智慧化方面,中國移動深入金融、交通、能源、製造等 10 + 個行業,全自研 30 個橫跨多領域的行業大模型,加快推動各個行業智慧化應用在人工智慧驅動下由微觀走向宏觀,從複雜系統典型的混沌性走向清晰,形成面向經濟社會各領域的賦能輻射圈。目前,九天海算政務大模型已與黑龍江合力打造全國首例政務領域綜合搜尋平臺,營造便利政務環境,充分解決了在省、市、縣等不同級別政府政務應用中的集約化賦能挑戰;九天醫療大模型已在北京協和、廣州 120 等龍頭醫療機構落地部署,全面賦能升級包含醫療輔助決策、病歷文書生成、智慧隨訪等各類醫療場景;與頭部能源化工企業合作研發國內首個能源化工行業大模型,孵化 “AI + 油氣”“AI + 煉化”“AI + 運營” 等標杆示範應用,推動 “AI+” 行動走深向實。

圖片

戰略佈局:中國移動如何打造行業領先的 AI 生態

高效能基座大模型是如何煉成的?這首先離不開中國移動始終將人工智慧作為公司戰略轉型的重要方向。

十年間,中國移動組建了由 IEEE Fellow、中國移動集團首席科學家馮俊蘭博士領銜的 2000 + 人才雁陣,引入超 150 個海內外 TOP 高校 AI 專業博士,牽頭承擔了開放創新平臺等 20 + 項國家 AI 重大重點專項任務,申請超過 930 項專利,發表 160 餘篇頂會頂刊論文,獲頂級 AI 競賽 TOP5 獎項 19 項,主導了國內外 86% 的網路智慧化標準,成為全球公認最領先的自智網路運營商,同時也是國資央企在人工智慧領域的骨幹力量。

基於生態優勢,中國移動設立 “九天攬月” 合作計劃,透過聯合研發、成果引進、資本合作等多種方式引入業界優質能力,以科技部支援建設的 “智慧網路國家新一代人工智慧開放創新平臺” 和國資委、發改委支援建設的 “中央企業人工智慧協同創新平臺” 兩大國家級重大平臺為依託,與產業共同攻關大模型核心技術、共建先進大模型基礎設施、共創行業大模型和相關標準,加快推動基於大模型的規模化行業應用蓬勃發展。

可以發現,中國移動在人工智慧這條道路上,要比我們想象的走得更遠。它早已不是一家單純的通訊運營商,而是透過構建多模態基座大模型,打造全要素 “AI+” 服務運營體系,成為通用人工智慧時代的供給者、匯聚者和運營者。

相關文章