專注AI+製造:創新奇智大模型工業落地初顯成效,探索工業智慧機器人新方向

机器之心發表於2024-09-02

最近的大模型行業,似乎有一種「暴風雨來臨前的平靜」。

整個 8 月,OpenAI 連續不斷的行動似乎在告訴我們:風向要變了。從釋出 System Card,開放大模型微調能力,再到針對邏輯能力改進,可個性化訓練部署的「草莓」模型,一系列曝光的專案和產品,都顯現著實用化的明確目的。

圖片

OpenAI 研究員 Trevor Creech 的推文。大模型的領軍企業似乎也把技術的落地放在了首位。

大模型的發展正在呈現不平衡的景象:在一邊,技術覆蓋已有了可觀的數字,OpenAI 宣佈 ChatGPT 每週活躍使用者量達到兩億,走開源路線的 Meta 則報告 Llama 系列模型下載量接近 3.5 億;但在另一邊,原本預料中對於眾多行業的「顛覆」似乎還沒有起勢。

對於工業落地來說,新技術的應用意味著切實能夠帶來生產力的提升。各家科技公司已經走到了比拼技術商業化的攻堅階段,比拼的是誰落地得更快,誰的落地更實用。

就在這波降低技術門檻、最佳化模型的大潮中,國內的一家公司脫穎而出,它從創立之初就確立了大模型「工業化落地」的方向,並已經取得了一系列成果。

創新奇智的工業大模型,正在快速落地

在工業領域,創新奇智為客戶量身打造的智慧化資料治理解決方案正在發揮作用。

面向製造業,創新奇智打造出了實用化的裝置維護智慧體。在與中加特電氣的合作中,基於大模型應用 ChatBI 及 ChatDoc,結合工廠 MES 系統(製造執行系統),創新奇智在生產端打通了裝置的維護保養閉環。

使用這一套工具,人們可以透過簡單對話的方式實現生產裝置資料查詢、故障預測、根因分析、裝置維修告警、維修方案推薦、維修工單生成等功能,進而執行裝置保養維修的全流程智慧化維護。

圖片

採用大模型智慧體方案後,人們可以透過 AI 預防生產故障,減少維修次數,每年可以降低多達 265 萬維修成本。同時,因為裝置故障檢修次數變少,生產效率可以提升 36.3%。透過對資料的根因分析,使用者更可以快速找到裝置故障的原因,維修響應時間降低了 30%,解決故障的時間從平均 10 小時,降到了 7 小時以內。

除了提升維護效率,在很多行業中,大模型技術也可以幫助人們快速分析資料,輔助進行決策,大大提升資料和資訊資產積累的效率。

平安資管擁有龐雜的資料庫系統,包含數萬張資料表及數十萬計的欄位,存在大量結構化、非結構化、半結構化資料。面對龐大的資料資產,各表單之間複雜的關係網路,要想用人力進行梳理,就需要耗費大量時間。

人們將所有資料接入到大模型資料管控平臺中,透過 ChatBI 應用為客戶實現資料分析洞察,透過 ChatDoc 應用為客戶實現資料運維洞察,充分解決了以上難題。在實踐中,ChatBI 可以幫助使用者僅透過對話的方式,即刻查詢到所需的指標、表、欄位等資訊;還可以快速追蹤資料的來源和流向,瞭解資料在各系統之間的流動情況,讓資料盤點效率提升了 10 倍。

圖片

而 ChatDoc 可以幫助客戶透過對話的方式 ,即刻生成某項資訊報錯後的解決方案,還可以快速查詢合規要求,生成操作建議,將整體誤操作事件降低了 80%。

當前,圍繞製造業打造的大模型解決方案通常可分為兩類。一類涉及產線運營效率提升,如工業質檢;另一類則被稱作企業資訊智慧,資訊和知識密度較大,非常適合大模型的應用

這些領域的資料對於大模型的針對訓練來說已經完全可用。隨著閉環的形成,新生成的資料反哺並不斷提升模型能力,解決方案也在逐漸跑通。

基礎能力,不斷提升

一系列技術落地的背後,是創新奇智以工業大模型技術平臺為基礎的產品體系。

2023 年 4 月,奇智孔明推出了首款生成式 AI 產品 —— 奇智孔明 AInnoGC,它面向製造業為主的垂直類場景,致力於讓不同細分行業都擁有基於自身資料的 AI 生成能力。

今年 3 月,作為其基礎的工業大模型 AInno 升級至 2.0 版本,達到 750 億引數,效能獲得了大幅升級。AInno-75B 增加了多模態處理能力,支援輸入文字、影像、影片以及工業場景中的行為(Action)模態,如 CAD 等。

圖片

透過引入高引數量大模型 AInno-75B, 創新奇智的主推產品 ChatDoc、ChatBI 獲得了顯著的能力提升。

生成式企業私域知識問答應用 ChatDoc 進一步豐富了多知識庫、多檔案型別、多內容格式的知識問答能力。ChatDoc 在知識庫領域完成了一系列創新。透過「片段切分合並」的方式,在人機交流的過程中,知識點的相關性經由大模型技術進行判斷,避免了橫跨領域時返回內容不完整,整體問答效果提升 28.8%。

現在,ChatDoc 支援了直接對掃描版 PDF 文件的識別和問答,可以自動掃描 PDF 檔案,並將其中資訊直接納入到知識庫當中。

與此同時,創新奇智重點最佳化了全流程資料計算效率和服務吞吐能力,顯著提升了大量檔案情境下的問答效果、效率和使用者體驗。

生成式企業私域資料分析應用 ChatBI 則針對客戶需求最佳化了產品體驗,支援使用者的全流程可介入、可編輯、可確認,確保資料分析結果可靠、可信。同時該工具進一步最佳化了 Text-To-SQL、Text-To-Chart 的效果和展示形式,降低了資料分析門檻,並提升了資料分析效率。

在實際的工作流程中,ChatBI 被定位為助手(Copilot)級應用。創新奇智 CTO 張發恩表示:「它不是 100% 的 BI 系統,而是作為輔助企業內 BI 報表工作人員的角色,可以幫助人們提升效率。在 AI 的幫助下,很多原來需要寫程式碼的工作流程,現在只需要以對話的方式就可以實現了。」

此外,在大模型的推理效率上,創新奇智透過高效的搜尋引擎和 4 位元量化技術大幅降低計算資源需求,實現了 75B 大模型的雙卡可推理,滿足了大量企業級應用場景的需求。針對眾多企業大模型私有化部署的需求,創新奇智還與合作方共同構建了基於國產算力的一體機。

創新奇智還升級、釋出了生成式企業私域視覺洞察應用 ChatVision、生成式輔助工業設計應用 ChatCAD、工業機器人任務編排應用 ChatRobot Pro 等一系列能力。

切入工業機器人,探索端到端方向

說到工業機器人創新奇智在這個方向上正進行著最前沿的探索。

ChatGPT 等大語言模型的發展,正在為機器人領域掀起一場革命,有最先進的大語言模型加持,機器人終於擁有了一顆聰明的大腦。

今年初,史丹佛大學的「炒菜機器人」ALOHA 問世,引發了一片關注。利用新一代技術,機器人似乎已經可以勝任全職管家了。

圖片

在史丹佛的工作中,研究者開發了一套系統,用於機器人模仿學習需要全身控制的雙臂移動操作任務。它透過一個全身遠端操作介面進行有監督的行為克隆收集資料,並在此基礎上讓機器人進行訓練。當面對不同形態的物體時,機器人依然能根據之前的訓練資料完成諸如刷碗等基本動作,實現了一定程度的自動化和適應性。

創新奇智正在構建的 ChatRobot Pro 生成式工業機器人排程應用,也使用了相同的思路。在去年基於大模型智慧體實現高層次排程編排的基礎上,新版本的 ChatRobot Pro 結合了多模態、端到端的 VLA(Vision-Language-Action)策略模型,持續最佳化了工業大模型的感知、理解、規劃、決策能力,大幅提升了機器人操作的任務泛化性和互動友好性

ChatRobot Pro 的核心是端到端的 VLA 策略模型,它可以接受影像輸入並配合語言指令進行下一步動作的預測。與以 token 形式輸出文字內容的大語言模型不同,在 VLA 模型中,演算法需要實時處理視覺環境中的動作,快速準確地面對外界做出連續的動作反應。創新奇智的機器人可以保持一秒鐘 30Hz 的動作重新整理率,確保了行動連貫流暢。

VLA 大模型是一種能夠在視覺、語言及動作之間建立聯絡的強大工具,它可以接收來自多個感測器的資料(例如三個攝像頭影像),解讀複雜的任務指令,並輸出相應的動作,指導機器人執行精確的操作,如調整物體位置等。與傳統的機器人相比,VLA 具有更強的理解能力、學習能力和響應速度,適用於需要實時處理複雜情境的任務場景,如工業生產中的質量檢測、產品組裝等。

在這裡,系統採用了雲邊端協同架構,其中機器人旁的端側算力負責本地部分資料處理,端側 VLA 演算法進行最終決策,以支援機器人在複雜環境下的自主決策和高效執行。

我們在實驗室裡看到了 ChatRobot Pro 早期形態的演示。僅透過上百次人類操作的「指導」,收集資料加訓練時長不到一個月,實驗室裡的機器人就已經學會拿起掃帚打掃碎屑:圖片

它也可以識別杯中小球,並將其倒入空杯子:圖片

實現自主學習與行為模仿,標誌著機器人在柔韌性和泛化能力上出現了重大突破。未來,我們或許不再需要依賴僵化的程式設計指令,只需透過接收大量真實運算元據訓練視覺大模型,就能讓機器人在實際環境中完成更加靈活多樣且高效的任務。

這不由得讓人想起自動駕駛領域中,基於視覺大模型的端到端方法正在實現的革命。端到端的自動駕駛很快就要上路了,我們可以期待機器人領域也會發生同樣的事。

不過相比之下,自動駕駛擁有大量現成可用的資料集。為了更好地發展視覺模型驅動的機器人,創新奇智正在構建 Robot 資料集,其中包含豐富的視角資料,如各類動作的全部軌跡資訊。工程人員還在不斷整合各類開源資料,力求將其打造成為一個領先的工業領域大規模資料集。

隨著端到端大模型技術的提升,複雜任務規劃與執行演算法的發展,新一代機器人或許可以解決工業領域中的一系列手動、勞動問題,尤其是那些無法透過傳統自動化技術解決的任務,比如手機裝配中的精細操作環節。

擁抱 AI2.0

最新發布的財報顯示,創新奇智在技術和產品創新方面保持著高投入:近年來研發支出佔營收的比例均保持 25% 以上。從大模型技術落地,再到端到端視覺模型驅動的機器人,創新奇智的一切努力,都是為了衝擊 AI 2.0。

如果將 2018-2022 年定義為 AI 的 1.0 時代,這一代的人工智慧卷積神經網路為基礎,其表現為能聽能看,可以進行判斷識別等任務。過去的幾年裡,人工智慧已經帶動了很多行業的自動化變革,但在其中,真正的智慧還沒有出現。

大模型技術正在將 AI 推動到 2.0 時代,它克服了上一代 AI 單領域、多模型的限制。利用海量資料訓練的,具有跨領域知識的基礎模型(Foundation Model)能夠完成多模態的複雜任務,更能透過微調等方式快速適配專業領域任務,真正能夠實現平臺化效應。

可以說,在 AI 1.0 的時代,工業視覺的加持讓機器睜開了雙眼,到了 AI 2.0 時代,機器人的大腦不再需要人類將所有動作程式設計,每一個 Action 都將是由大模型來驅動的。

我們正在見證「AI + 製造」大方向,新趨勢的出現。

相關文章