現場Live震撼!OmAgent框架強勢開源!行業應用已全面開花

机器之心發表於2024-07-06

第一個提出自動駕駛並進行研發的公司是 Google,巧的是,它釋出的 Transformer 模型也為今天的大模型發展奠定了基礎。

自動駕駛已經完成從概念到現實的華麗轉變,徹底重塑了傳統駕車方式,而大模型行業正在經歷的,恰如自動駕駛技術發展的傳奇征程 ——

最頂尖的研發團隊競相投身其中、不斷加速搶跑的技術產品創新,以及持續被推向極致的使用者體驗。

在大模型賽道中,有一家企業始終以領先的身位,推動著行業邊界向前擴充

為什麼是聯匯科技?

當行業剛開始關注大模型,他們已經錨定多模態大模型,並高分取得了工信部大模型檢測的 001 號證書;

去年,當人們關注「百模大戰」,他們不僅釋出了自研 OmModel 多模態大模型的 V3 版本,更釋出了國內首批大模型驅動的自主智慧體應用。

今年,世界人工智慧大會期間,他們再次釋出一系列技術成果,將大模型技術產品推向更深、更廣的應用層面

聯匯科技技術團隊有著極強的前瞻思維,這與他們的首席科學家趙天成博士緊密相關,這位師從國際 AI 領域頂尖學者的 Maxine Eskenazi,在 CMU LTI (卡內基梅隆大學語言技術研究所)完成碩博連讀的天才少年,不僅稱得上「AI 名門正派」,更難得的是,趙天成在技術發展和戰略規劃方面有著獨到見解。

趙天成博士指出,在 AI 主導的第四次工業革命浪潮中,自主智慧將成為變革的核心變數。隨著人類第一次接觸並掌握創造智慧的奧秘,我們將目睹一個新時代的到來 —— 在這個時代中,機器、軟體甚至系統,將被賦予前所未有的自主決策能力,只能化將廣泛應用於各個工作領域,開啟前所未有的效率和創新。

2024 年是智慧體元年。

我們正處於 L2 級別,並逐步向 L3、L4 邁進的過程中。

圖片

OmAgent 來了!

WAIC 期間,聯匯科技正式釋出第二代多模態智慧體 OmAgent

去年同期,聯匯科技搶跑行業,率先發布了國內第一批由多模態大模型驅動的自主智慧體,那麼,今年聯匯的第二代多模態智慧體 OmAgent 有哪些驚喜?

首先是感知模組全新升級。

隨著 AI 應用落地,聯匯科技發現儘管萬物感知模型在智慧識別和處理方面具有巨大潛力,但受限於推理速度的瓶頸。相較於小型模型在推理速度上的優勢,Idealab 的 G-DINO 和聯匯科技的 OmDet 在速度上的表現都不盡如人意,這極大地限制了它們在邊緣計算裝置上的應用。

聯匯科技最新發布的 OmDet V2,實現萬物感知的全面加速,從底層重新構建了萬物感知的模組,推出了 EFH 高效能融合頭,包含了一系列模型加速的最佳化技術、語言向量快取、輕量化特徵編碼與解碼等技術,得益於 EFH 對每一個環節的機制最佳化,相較於 G-DINO 和聯匯的第一代感知模型,OmDet V2 在每一個環節上都實現了 20 倍以上的速度提高

圖片

圖片

這樣的提升意味著 OmDet V2 正在開啟未來邊緣 AI 與具身智慧全新可能。

憑藉 OmDet V2 的推理速度和精確分析能力,單個 GPU 就可以承載對 500 路影片流的實時萬物感知分析,這是對技術效能的新一次重新整理。同時,這也意味著開啟邊緣 AI 的可能,OmDet V2 讓萬物感知模型擺脫雲端束縛,走向邊緣裝置,為人形機器人、家庭智算中心等前沿應用提供了強大的智慧支援。

這種創新不僅重新定義了大模型產品的開發思維,更為構建一個更實時、更安全、更注重隱私的大模型應用環境奠定了基礎。

第二是思考決策能力的提升

思考是多模態智慧體的核心,只有具備了思考能力,智慧體才能夠依據感知和記憶結果做決策判斷和自主行為,成為真正的助手。但現有多模態思考模型存在著明顯侷限,比如只能基於單張圖片進行思考和決策、無法對多個關聯圖片之間進行理解處理等。

為了解決這一問題,聯匯科技全新發布了第二代思考大模型 OmChat V2,一個基於多模態模型原生預訓練的生成大模型,不僅提供 8B、40B、60B 多個版本,適配不同需求。更能非常好地支援影片、圖文混合、文字等多種複雜輸入,完美適配智慧體決策過程中所需要的複雜場景。

圖片

OmChat V2 支援高達 512K、50 萬的上下文長度,摺合影片長度 30 分鐘,僅次於 Google Gemin-1.5,並遠超 GPT-4o 及微軟 LLaVa-1.5。

圖片

OmChat V2 在 Mantis-Eval、Q-Bench、MileBench Real、MVBench 等測試中平均效能均在行業前列。

圖片

更簡單、直接的說法是,OmChat V2 不僅能夠看準時序關係,更能夠看懂多圖關係。

圖片

時序關係判斷

圖片

多圖關係理解

為了大模型與智慧體技術能夠真正的普惠落地,聯匯科技還率先完成了與多款國產 GPU 的適配與效能驗證,透過高效稀疏啟用、動態專家方法,提升推理效率 20 倍,Om OS 大模型執行平臺也是首個支援多地域大模型分散式推理平臺,異構九頭蛇推理能夠提升算力利用率 3 倍。

圖片

就此,聯匯科技正式解鎖海量行業應用場景。

圖片

自動化體育解說

圖片

影視劇內容解構

圖片

工業智慧助手

OmAgent 框架全面開源!

聯匯科技在多模態智慧體技術上已經取得了多項突破性成果,對於是否開源的問題,趙天成博士始終從更宏觀、更長遠的角度看待。

他表示:我們選擇將 OmAgent 框架全面開源,是因為想要鼓勵更多企業、開發者參與,透過知識共享和技術創新構建一個更加開放、更加豐富的智慧體生態,進而能夠帶動整個行業更好的發展。

OmAgent 框架不僅包含了感知、記憶、決策等綜合模組,並整合融入 OmDet、OmChat 等多個不同型別的大模型能力,極大方便企業與開發者的應用開發,推動智慧體技術向更深層次、更廣領域的賦能。

圖片

透過 OmAgent,能夠快速、準確解決各類場景下的複雜問題。比如,從影視劇中總找出某個問題的答案,儘管影片沒有直接呈現答案,但是 OmAgent 依然可以透過對全片的整體理解,掌握劇情並根據原片內容進行思考、作答。

Step 01

圖片

Step 02

圖片

Step 03

圖片

Step 04

圖片

目前,OmAgent 框架已全面開源。

圖片

在 WAIC,聯匯科技對 OmAgent 做了完整的現場互動演示。

為了讓智慧體更快地融入日常工作與生活,聯匯正式釋出了 Om 多模態智慧體全新產品系列 —— 空間運營智慧體、知識服務智慧體,為行業使用者打造「超級助手」。

空間運營智慧體是透過攝像頭、拾音器等物聯裝置以及接入的各類資料來源對空間物理環境全面感知,深度融入大模型的思考能力,準確處理、分析多模態資料資訊,洞察運營中的關鍵問題、潛在機會,基於智慧體角色設定的目標任務,結合記憶和學習,實現面向物理空間的思考、規劃與決策,成為使用者進行空間管理的得力助手。

圖片

應用範圍覆蓋線下零售、營業廳、機房、產業園區、文旅景區、城市街區等各類單體空間、連鎖環境,實現對空間的精細化運營與管理。

圖片

相較於空間運營智慧體對現實物理世界的運營管理,知識服務智慧體更強調對數字世界的管理和對數字資產的價值挖掘。

圖片

它可以作為專為行業定製的人工智慧助手,廣泛應用於辦公、生產、運維、營銷、培訓、客服等場景,將企業、組織和個人在特定領域內積累的經驗、技術、業務流程等轉化為結構化的行業專用知識,透過知識管理、知識檢索、知識問答與知識生成等核心能力,提升使用者決策質量、最佳化操作流程,最終將無形的知識資產轉化為有形的生產力。

圖片

2024 無疑將是智慧體元年,智慧體也正在成為大模型落地的最佳途徑。

關於未來,趙天成博士透露了他的預判 ——

  • 智慧體的未來不是單打獨鬥,而是大模型的組合拳,尤其是當多種類大模型協同作戰時,它們能釋放出遠超單一大語言模型的潛力。

  • 智慧體將打破傳統聊天機器人的界限,它們的應用形態將經歷一場革新,變得更加多樣化和深入人類活動的各個方面。

  • 隨著邊緣 AI 的興起,大模型將不再侷限於大型伺服器,它們將走向邊緣,被嵌入到眾多小型裝置中,實現真正的無處不在。

相關文章