看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了

机器之心發表於2024-03-28

今年升級的重點在於引入了多模態大模型能力。

當 Sora 和 Suno 所創造的影片和音樂作品在全球範圍內引起視聽革命時,工業領域的大規模多模態應用又將如何演進?3 月 27 日,作為中國領先的「AI+製造」解決方案提供商,創新奇智揭開了他們的前瞻性答案。

經過半年努力,創新奇智在北京舉辦的釋出會上釋出了更為強大的奇智孔明工業大模型 2.0 版本( AInno-75B ),幾款大模型原生應用也首次亮相,包括 ChatVision 、ChatCAD,ChatRobot 也升級到 Pro 版本 。

圖片

創新奇智 CTO 張發恩在釋出會上

Scaling laws 的發現有助於研究人員和工程師們預測增加模型規模所帶來的效能收益,以及為了達到特定效能目標需要的引數數量。如今業界已經形成一些共識,引數的提升可以讓模型效能提升。較之 AInno-15B ,AInno-75B 在規模和效能方面取得了顯著增長。

今年升級的重點在於引入了多模態大模型能力。張發恩解釋說,這個進階的大模型能夠處理包括文字、圖片、影片在內的多種資訊模態,甚至能夠融合工業場景中特有的資料型別,比如 CAD 圖紙和 EEG 訊號。它的輸出同樣多樣,能夠生成文字、影像、影片、CAD 設計圖或者具體操作行為。

圖片

一、ChatCAD: 工業“文生圖”之美

C端AIGC應用生成的圖片、影片作品令人歎為觀止,而在企業服務領域,AI生成能力同樣精彩。

工業設計是生產活動的基石,從手機到新能源汽車工廠,生產建造前都須完成工業設計。CAD軟體作為工業設計之本,在產業鏈上游佔據重要地位。長期以來,我國傳統CAD軟體市場被國外廠商把持,介面複雜、使用門檻高。

中國中元國際機械工程有限公司經營總負責人王先透露,他們的設計工作大多依賴人工。一個單體建築,無論是標準層還是綜合體都需要設計師一筆一筆繪製,工業圖紙亦是如此,耗費大量人力物力。此外,行業規範眾多且修訂頻繁,進一步加大了設計難度。

為打破這一局面,創新奇智率先將工業大模型技術引入工業設計領域,推出Text-to-CAD類應用—“ChatCAD”:透過簡單的對話問答形式,便能迅速理解設計師的創意意圖,自動生成符合要求的工業設計圖,並支援匯出到傳統軟體進行微調。

輸入 “幫我設計一個工業滑輪,引數如下:滑輪半徑為6,厚度為5,滑輪邊緣向外突出0.8,突出部分厚度為0.5,滑輪中心軸高度為5,半徑為4” 。ChatCAD 立刻生成作品,並根據反饋不斷最佳化設計。看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了 現場演示工業滑輪設計

即使面對冗長複雜的部件設計需求,ChatCAD也能應對。例如,“幫我設計一個渦輪機,渦輪由電機、引擎罩組成,具體要求如下:電機為圓柱形,長20,直徑16。渦輪由一個圓柱渦輪軸和5片扇葉組成,渦輪軸長20,直徑12,渦輪頂部要有圓柱形圓錐旋轉軸,軸帽長度為9,直徑12,引擎罩直徑50,長度30,渦輪扇葉與引擎罩之間的間隔為1。”

ChatCAD 依然可以生成結果,並根據反饋持續完善。ChatCAD生成的設計還支援主流檔案格式,可無縫對接其他工業軟體,方便後續整合修改。看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了

現場演示渦輪機設計

這一功能令王先倍感振奮。他認為,ChatCAD 有望幫助行業減少重複性勞動,規避硬性規範限制,進而影響整個行業的人工報價。

那麼,ChatCAD 是如何實現的?張發恩解釋道,CAD 有別於文字、圖片、影片等常見模態,它需要表示點、線、邊、圓、柱、工藝等幾何資料。“所以我們也叫做一種模態,是 C 端不具備的一種模態。我們要發明自己表達 CAD 的中間語言,大模型生成這種中間語言或者中間碼,再把這些中間碼翻譯成 CAD 。”看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了

官方釋出的ChatCAD DEMO

張發恩坦言,目前 ChatCAD 生成的簡單圖紙可直接用於加工,但複雜設計仍需完善。ChatCAD 的目標是成為設計院工程師的得力助手。它有望將原本耗時十小時的設計流程縮短至一小時,大模型負責完成 90% 的工作,剩餘 10% 由人工最佳化。

值得一提的是,創新奇智已成功將先進的大模型技術深度融入 CAD 、MES 、BI 等多種工業軟體,實現了對"研發設計-生產控制-資訊管理"全流程的智慧化改造與升級。

二、ChatVision :工業安全監管新利器

工廠生產安全與合規至關重要,影片監控和影像分析不可或缺。以板卡廠波峰焊為例,工人清理 280 度高溫錫爐時,若未嚴格佩戴安全防護裝備,如氣密式活性炭口罩、高溫防護手套等,存在嚴重燙傷風險。

傳統監控方式效率低下,容易遺漏隱患,事後檢查滯後明顯。ChatVision 基於 Alnno-75B 工業大模型,可透過自然語言實時分析監控影片流、影片檔案和圖片,精準識別不合規行為,並立即觸發報警系統(比如自動傳送郵件給管理員),助力工業企業安全生產。

釋出會現場演示中,ChatVision 準確響應"仔細觀察當前畫面,告訴我這可能是個什麼地方"等綜合理解指令,以及"找出畫面中的電源插座"、"找出白色的安全帽"等具體目標識別任務,展現了其廣闊應用前景。看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了

現場演示中,ChatVision找出畫面中的電源插座"、"找出白色的安全帽"等具體目標。

這些指令看似很簡單,沒有大模型的情況下需要針對每個細小的識別類別(比如安全帽、吸菸)開發具體演算法,除錯部署後難以修改,落地成本高、週期長。大模型的出現顛覆了傳統正規化,單個大模型可覆蓋多個小模型的功能,在效能、準確率、泛化能力等方面全面超越,並支援自然語言互動,大大簡化了開發部署流程。

現場演示中,畫面發生變化:一位同事摘下工帽玩手機,另一位同事脫下安全衣。演示人員下達指令:"請仔細分析這個畫面,如果有違規,發郵件給管理員"。

這條指令知識密度很高,不僅涉及違規判斷,還需決定是否觸發郵件傳送以及收件人。這正是大模型原生應用的典型服務模式。結果,ChatVision 呼叫了後臺很多安全監測技能做了識別,不僅標出來三項違規之處,還傳送了郵件,附帶截圖。看影片、畫CAD、運動想像識別!75B的多模態工業大模型太能幹了

官方釋出的ChatVision DEMO 中有清楚演示

ChatVision 演示充分體現了工業大模型的規劃和推理能力。它可以將使用者意圖轉化為一系列外部工具呼叫,有條不紊地完成複雜影片理解任務。

創新奇智 CTO 張發恩表示,過去幾年公司積累了 200 多項視覺演算法和模型資產,而工業大模型為這些資產的應用開闢了新天地。大模型不僅可以充當智慧編排者,最佳化使用者體驗,其多模態能力還能強化影片理解,在企業安全領域大顯身手。

最後一個演示案例凸顯了大模型在多模態領域的前沿應用。面對一段真實車間影片,演示人員提出高難度需求:"請仔細分析這個影片,告訴我是否有人吃飯並標識這個動作發生的時間"。該任務需要大模型對長時間序列畫面進行連續動作識別,並標註動作起止時間。結果, ChatVision 準確定位到影片開頭 15 秒內出現工人吃飯的情況。

"吃飯是很常見的事件,大模型對事件的理解能力遠勝傳統小演算法模型。"張發恩解釋道。長期以來,透過影片保障生產和工程安全的需求十分迫切。未來,圍繞大模型開展相關工作,將有望實現生產安全狀況、生產過程合規性的智慧影片理解。

在王先看來,安全始終是工程專案的頭等大事。多年來,工程安全培訓很少涉及現場隱患排查。他認為 ChatVision 的應用前景廣闊,現場安全頭盔檢測、高空安全繩佩戴、安全器具攜帶等場景都可望落地。ChatVision 在監理行業也大有可為,目前許多現場安全巡檢仍高度依賴人力。

三、ChatRobot Pro :“運動想像識別”

AInno-15B 的原生應用 ChatRobot 已經實現語音控制工業機器人。直接告訴ChatRobot “給我來一杯咖啡”,它就可以指揮工業機械臂在貨架上尋找咖啡,自行設計路線把貨物送到你手上。ChatRobot Pro 能處理更復雜的資訊載體腦電訊號。

釋出會上,演示人員隨機選擇了一種商品(統一綠茶),讓一位頭皮上固定了多個電極的人用運動想像控制工業機器人將飲料交到其手中。這位頭戴採集器的人努力想著三件事:向左、向右,選中,游標根據大模型翻譯出來的訊號也在螢幕上左右移動。當游標移到目標圖示時,他會盯著這個圖示不動,游標點選選中。

接下來,ChatRobot Pro 會自主完成任務的智慧編排,生成可執行任務步驟,並與工業機器人介面實時互動,指示機器人完成任務。

腦電訊號是大腦活動時產生的訊號,大腦活動和腦電訊號之間的關係非常複雜,如何解碼成為困擾研究者的一大難題。傳統做法的準確率低,AInno-75B 展現出解讀這類多模態資訊的潛力。國外一些腦機介面技術使用侵入式電極獲得腦電訊號,它涉及到電極設計、手術植入、排異反應、訊號傳輸、訊號解碼等一系列工程問題。創新奇智使用非侵入式腦電帽收集腦電資訊,在工程難度上大大降低。

不過,張發恩也表示,侵入式可以獲得更多通道和更清晰的腦電訊號,為後續解碼更復雜大腦意圖帶來方便。一個形象的比喻是:侵入式採集腦電訊號就像在體育館內部聽演唱會,非侵入式則像在體育館外聽演唱會,歌聲的清晰度會有很大的區別。當前,創新奇智在做的研發工作,是驗證工業大模型的多模態能力,為未來可能的腦控工業自動化場景進行技術預研。

這也是一個端到端的原生應用,張發恩強調。從腦電訊號輸入到直接輸出最終結果(機械臂將貨物遞給演示人員)的整個流程都由神經網路來完成,而不依賴於手工設計的特徵或傳統的資料處理。

除了自然語言互動和運動想像識別,ChatRobot Pro 也充分利用了工業大模型推理能力,實現了長序列任務編排和複雜決策驅動。賦予不同具身(無論是工業機械臂還是 AGV 等)強大的智慧操控和決策能力,也會是創新奇智工業大模型未來努力的方向。

四、繼續進化,篤行向前

生成式AI時代,工業應用尚無先例可循,創新奇智一直在探索工業場景下的種種可能。

大模型在企業服務方向上的前景,張發恩稱之為 “Promising”。但他坦言,技術變革的視窗期,大家的認知往往參差不齊,尤其是比較大的變革,人的認知需要時間跟進,自己也不例外。

除了新增的原生應用,去年釋出的 ChatDOC 整體效能和效果都有提升,產品功能更加完善。ChatBI 新增支援 Excel 和 CSV 資料,現在生成 SQL 語句和分析報告的準確率提升 15%。大模型服務引擎部署起來更容易,推理效能更高。

創新奇智會進一步將直接基於工業大模型核心生成能力搭建的 ChatX 應用打磨好。”張發恩說。

相關文章