穹徹智慧-上交大最新Nature子刊速遞:解析深度學習驅動的視觸覺動態重建方案 机器之心 發表於2024-11-14
隨著人形機器人技術的迅猛發展,如何有效獲取高質量的運算元據成為核心挑戰。鑑於人類操作行為的複雜性和多樣性,如何從真實世界中精準捕捉手與物體互動的完整狀態,成為推動人形機器人操作技能學習的關鍵所在。面對這一挑戰,穹徹智慧攜手上海交通大學盧策吾和劉景全團隊,創新性地提出了名為 ViTaM 的視覺-觸覺聯合記錄和追蹤系統。該系統包括高密度可伸縮觸覺手套和基於視覺-觸覺的聯合學習框架,不僅在觸覺手套的設計和製造上實現了技術突破,更透過視覺與觸覺的深度融合,為理解手物互動過程狀態提供了全新的視角和強大工具。 在人形機器人操作領域,有一個極具價值的問題:鑑於運算元據在人形操作技能學習中的重要性,如何有效地從現實世界中獲取運算元據的完整狀態? 如果可以,那考慮到人類龐大規模的人口和進行復雜操作的簡單直觀性與可擴充套件性,人形機器人再也不用擔心沒有高質量的運算元據資源了。 穹徹智慧攜手上海交通大學盧策吾和劉景全團隊意識到,分散式觸覺技術對於重建完整人類操作至關重要,當操作被遮擋時,觸覺可以作為視覺的有效補充,從而一同還原出操作區域的形變狀態、接觸力位點和大小。因此,該團隊提出了一種全新的視覺 - 觸覺聯合記錄和追蹤系統 ViTaM(為 Visual-Tactile recording and tracking system for Manipulation 的縮寫),包括一個可伸縮的觸覺手套,與一個基於視覺 - 觸覺的聯合學習框架。文章在 24 個物體樣本中進行實驗,涵蓋了 6 個類別,包含剛性物體和可形變物體,重建誤差均值僅為 1.8 釐米。 ViTaM 系統在未來發展中,有望被深度整合至機器人的電子皮膚之中,從而賦予機器人與周圍環境進行無縫互動的能力。這不僅能夠使機器人實時感知並精準響應多樣化的環境刺激,更將極大提升其在複雜場景下的靈巧操作水平,推動智慧機器人技術邁向更加先進和實用的新階段。 論文名稱:Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array 論文連結:https://www.nature.com/articles/s41467-024-53654-y 專案地址:https://github.com/jeffsonyu/ViTaM 可以看到,對於剛體和可形變物體,系統都能進行高水準的重建,也同時適用於不同型別的物體,如紙杯,橡皮泥,剪刀等日常生活中常見的物體。 圖 1:A 人機互動中涉及人類操作的(i)無力互動和(ii)有力互動的任務及其響應結果。B ViTaM 系統概述:(i) 受人類啟發的聯合感知方法,在操作過程中同時處理跨模態的視覺和觸覺訊號,以實現狀態跟蹤;(ii) 可拉伸介面的應變導致的感測誤差,它降低了力測量的精度和觸覺感測器的應用效果;(iii) 觸覺記錄方案,包括具有主動應變干擾抑制功能的高密度可拉伸觸覺手套,以及用於顯式分散式力檢測結果的 VR 介面;(iv) 由深度學習驅動的物體狀態估計應用,能夠重建物體的整體幾何形狀和接觸區域的細粒度表面形變,特別是對於可形變物體。 ViTaM 系統核心挑戰是要解決在與可形變物體進行帶力互動時如何捕捉細粒度資訊,當可形變物體能被正確捕捉時,剛性部件的互動就自然迎刃而解了。 該系統利用一個高密度、可拉伸觸覺手套和一個 3D 相機記錄操作過程,並利用一個視覺 - 觸覺聯合學習框架在幾何層面上估計手 - 物體的狀態。高密度觸覺手套最多有 1152 個觸覺感測通道分佈在手掌上,當與物體互動時,會記錄接觸區域的手部物體狀態,並以 13Hz 的幀速率準確捕捉手物互動過程中可拉伸介面上的力分佈和動態(圖 1B (iii))。同時,非接觸區域的手與物體狀態可以由高精度深度攝像頭記錄。 捕捉到的力測量和點雲序列,經過視覺 - 觸覺學習模型處理,融合跨模態資料特徵,最終實現對不同形變材料的被操作物體的跟蹤和幾何三維重建(圖 1B (iv))。 在高精度觸覺反饋系統中,如何準確地捕捉並傳遞手部與物體之間的互動力,一直是硬體設計中的一個核心挑戰。特別是在涉及複雜手部運動和多點壓力分佈的情況下,傳統的感測器系統往往難以滿足高靈敏度和高可靠性的需求。因此,開發一款能夠精確感知觸覺資訊並支援多通道力感測的手套式硬體裝置顯得尤為重要。受到現有觸覺手套技術啟發,團隊研發了這一款創新的觸覺手套系統。該手套包括多個模組(如圖 2A 所示):觸覺感測模組、織物手套、柔性印刷電路(FPC)、多通道掃描電路、處理電路以及一個腕帶。系統設計的核心目標包括: 高效的資料傳輸與靈活的系統擴充套件:手套的設計採用模組化結構,便於根據不同需求調整感測器的密度或進行拆卸。其中,三種型別的 FPC 分別連線手指與掌心感測區域,支援最大 1152 個感測單元(原型系統配備 456 個感測單元)。 觸覺感測的高精度與準確性:系統包含了力感測電路和應變干擾檢測電路,以保證觸覺資料的高精度採集與處理,這些感測器透過導電織物線路連線,形成行列電極陣列,以實現準確的力感應和應變測量。 人體工學舒適性:為了提高觸覺手套的舒適性和適配性,採用了先進的織物感測技術,避免了傳統方法中常見的膠層分層問題。每個觸覺感測模組由正負應變感測器和力感測器陣列構成(圖 2B)。這種全織法組裝方式不僅提高了手套的耐用性和穿戴感,還使得手套更加適應複雜的手部運動和操作環境。 低成本與量產潛力:在系統的整體設計中,觸覺手套經過多次測試驗證,原型版的準確率達到 97.15%,證明其足以滿足大多數人機互動應用的需求。成本方面,觸覺手套的單價為 3.38 美元,而硬體總成本為 26.63 美元,使得該產品具備了較高的價效比,並有望廣泛推廣。透過加工工藝的逐步簡化以及生產自動化技術的實現,該觸覺手套在未來有著較大的量產潛力。 該觸覺手套系統不僅能夠精確捕捉力感資訊,還具備高適配性和舒適性,適用於多種實際應用場景,如虛擬現實、機器人操作及醫療領域等。 圖 2:觸覺手套的具體設計:A. 最大感測通道為 1152 的高密度可拉伸觸覺手套的放大示意圖;B. (i) 帶有兩對應變電極、行電極陣列和列電極陣列的觸覺感測塊的結構;(ii) 顯示應變電極位置的放大圖;(iii) 顯示緊密裝配的觸覺感測塊側檢視。 在操作可形變物體時,手部與物體接觸的力分佈能夠幫助揭示因形變而發生的幾何變化。然而,由於形變區域幾乎具備無限的自由度,完全估算物體形變的幾何形狀一直是一個難題。儘管觸覺手套能夠測量接觸區域的分佈力並幫助感知形變,但其覆蓋範圍僅限於部分物體表面,且即便是高密度、分散式的感測器網路也難以全面捕捉物體的完整幾何資訊。因此,團隊認為,還需要視覺觀測來彌補這一不足,從而恢復完整的物體幾何形態。此類視覺 - 觸覺互動機制與人類的認知過程高度相似。 團隊提出了一種視覺 - 觸覺聯合學習框架,旨在手 - 物體重建和跟蹤中恢復物體幾何資訊,尤其是在高度非剛性形變的情況下。該框架透過結合觸覺資料和視覺資訊,能夠有效重建被手部遮擋或形變的物體細節。為了評估這一框架,團隊製作了一個視覺 - 觸覺資料集,包括 7680 個樣本,涵蓋 24 種物體、6 個類別。資料集中包括海綿、橡皮泥、瓶子和杯子等可形變物體,以及摺疊架和剪刀等剛性物體。每個物體都進行了 20 次觸控,並透過 16 個不同的攝像頭視角進行了記錄。訓練資料來自 RFUniverse,它支援基於有限元方法(FEM)的模擬,測試資料則來源於實際操作。 圖 3: 該模型包含手部重建器、特徵提取器、時間特徵融合器和繞數場(WNF)預測器。全域性和區域性特徵均從視覺和觸覺輸入中提取,並基於手部的區塊位置。團隊將這些特徵融合在一起,利用時間交叉注意模組計算每點特徵,預測取樣位置的 WNF,並透過行進立方體演算法重建物體幾何形狀。 團隊從兩方面驗證了系統的有效性:觸覺手套與可形變物體互動分析,以及視覺 - 觸覺聯合學習的物體重建效果評估。 為了驗證觸覺手套的效能,團隊設計了一個動態的餃子製作任務,使用軟橡皮泥作為高度可形變的物體進行實驗。該任務包括將橡皮泥揉成球狀,然後將其壓成扁平形狀(作為餃子皮),最後用手指捏合皮邊。首先,當手掌將橡皮泥揉成球狀時,圖 4A 展示了手掌感測區域(稱為手掌塊)的歸一化壓力變化。其次,在手掌按壓橡皮泥球時(圖 4B),經過應變干擾校正後的歸一化壓力高於未經校正的結果。第三,將餃子皮對摺並用拇指和食指捏合邊緣(圖 4C)。歸一化的捏合壓力顯示,經過校正的壓力曲線在三個子階段明顯增加,這可能是由於形變帶來的顯著應變和未校正的壓縮力減少所致。 此外,團隊還研究了在需要手指與手掌協作的操作中,應變干擾校正前後的觸覺感測塊表現。例如,在反覆捏合並釋放海綿時(圖 4D)。未校正的操作只涉及六個活躍的手指塊和九個活躍的手掌塊,這些塊的相關係數大於 85%(圖 4E (i))。經過校正後,團隊發現了兩個額外活躍的手指塊和五個手掌塊(圖 4E (ii))。圖 4F (i) 展示了校正前活躍塊的歸一化壓力變化,圖 4F (ii) 則展示了校正後壓力變化較小的塊。Spearman 相關性結果分別展示了未校正和校正後的資料(圖 4G (i) 與圖 4G (ii))。位於中指遠端指骨上的塊 3-1 與其他塊的相關性最高。校正後,出現了更多的相關性,表明所有手指塊在捏合海綿時都發揮了作用,尤其是塊 2-2、塊 5-1、塊 5-2 和塊 5-3。像塊 3-1 和塊 2-1 這樣的塊,在校正後相關係數增加超過 85%,這表明相關塊之間的協同效應得到了增強。圖 4H 展示了校正後強相關數量的增加,進一步說明了即使在應變干擾的情況下,校正也有助於深入挖掘不同手指與手掌之間的依賴關係。 觸覺手套還能夠在操作過程中幫助估計物體形狀,尤其是在抓取各種物體時 —— 無論是軟物體(如塑膠滴管、毛巾、塑膠瓶)還是硬物體(如畫筆、勺子、小針)。在虛擬現實介面中,可以明顯看到沿物體邊緣的力反應。 團隊還考慮了手部姿態的干擾。圖 5-1 與 5-2 分別比較了兩種典型動作 —— 揉捏麵糰和抓取海綿 —— 在空手姿態和與真實物體互動時的歸一化壓力曲線。與空手姿態相比,實際互動時的歸一化壓力曲線分別增加了 12 倍、16 倍和 6 倍。較低幅度的噪聲可以透過視覺 - 觸覺聯合學習框架輕鬆濾除。在監督學習設定下,相關訊號(例如接觸重建)得到增強,不相關訊號則被抑制。 圖 4:包餃子任務以及三個動作的觸覺反應和歸一化壓力結果:(A) 揉、(B) 壓和 (C) 捏。D 反覆捏放可形變海綿的抓取任務照片。E 海綿抓取任務中主動觸覺感測塊的分佈(i)不含應變干擾抑制,(ii)含應變干擾抑制。F (i) 未進行應變干擾抑制的主動塊和 (ii) 抑制後進一步顯示的塊的歸一化壓力曲線。G 海綿抓取任務中(i)無應變干擾抑制時和(ii)有應變干擾抑制時斯皮爾曼相關分析的弦影像。H 校正前後所有手指區塊和手掌區塊的強相關數量。 圖 5-1:(A) 揉捏操作中的手部姿勢任務和 (B) 實際揉麵動作與歸一化壓力曲線。 圖 5-2:(A) 在抓取操作中的手部姿勢任務和 (B) 實際抓取海綿時的壓力曲線。 為了驗證 ViTaM 系統的有效性,研究者們進行了定性和定量對比測試,以回答以下問題:(1) 特定於觸覺陣列的資料格式是否能有效地向學習演算法傳遞幾何資訊?(2) 與其他形式的感測器(如 RGB-D 相機或光學觸覺感測器)相比,它是否更有效? 為了展示提出的聯合學習框架的有效性,團隊展示了兩個彈性物體(海綿)和一個剛性物體(剪刀)的接觸物體重建。從圖 6A 中可以看到,真實資料中的手和物體都得到了很好的重建,而且在觸覺資訊的幫助下,還可以重建手部遮擋的細節形狀。更重要的是,在應變干擾抑制後,基於觸覺反饋重建的可形變海綿可以在應變明顯的區域顯示出更多微小細節,而且由於應變干擾抑制方法有助於恢復施加在剛性邊緣上的真實微小力,剛性物體的完整性也得到了改善。圖 6B 展示了逐漸形變的塑性體,它代表了捏餃子皮的包餃子任務。塑性體在每個步驟中的形變都得到了很好的展示。在圖 6C 中,團隊重建了一個剛性摺疊架,該摺疊架採用了手與物體上不同位置的多次接觸。摺疊架的細節是透過多次接觸與迭代觸覺資訊嵌入(tactile embedding)來逐步完成的。此外,為了證明視覺 - 觸覺聯合學習的必要性,在圖 6D 中展示了剪刀、摺疊架和瓶子的純視覺結果和視覺 - 觸覺結果。得益於視覺和觸覺特徵的結合,剛性和可形變物體都得到了很好的重構。在圖 6E 中,重建的序列證明研究者所提出的方法能夠處理多幀的連續資料。因此,該視覺 - 觸覺模型效能的提高證明,引入應變干擾抑制的觸覺資訊對於獲得手部遮擋的特徵和獲取可拉伸介面上物體的動態形變都是至關重要的。 圖 6:A. 在沒有應變干擾抑制和有應變干擾抑制的情況下,兩塊彈性海綿和一把剛性剪刀的接觸物體重建。B. 在沒有應變干擾抑制和有應變干擾抑制的情況下,用手操作逐漸形變的餃子形塑性體的三個重建階段。C. 手在物體不同位置多次接觸後重建的剛性摺疊架。D. 剪刀、架子和瓶子的純視覺和視覺 - 觸覺重建結果,顯示了視覺 - 觸覺關節學習的優越性。E 根據在現實世界中收集到的視覺 - 觸覺資料對可形變的杯子和可形變的海綿進行重建的序列結果。 團隊同樣使用了定量指標對方法進行了評估。從表 1 中可以看到,ViTaM 在真機資料下的表現很理想, 大部分的物體都能做到重建誤差的倒角距離在 1~2 釐米之內。在實驗中,首先,團隊將現有的純視覺解決方案的效能與 ViTaM 系統的演算法(不包括觸覺編碼器)進行了比較;其次,將該演算法與之前的一項工作 VTacO 進行了比較,後者採用了基於矽膠的光學觸覺感測器 DIGIT 來記錄接觸形變。在表 2 中可以看到 ViTaM 與前人方法的結果的倒角距離比較。可以發現,ViTaM 系統在重建彈性、塑性、鉸鏈式和剛性四種型別的物體時,表現出優於純視覺方法的效能。例如,使用 ViTaM 系統重建海綿的倒角距離僅為 0.467 釐米,與 VTacO 相比提高了 36%。基於矽膠的光學觸覺感測器可以獲得更高解析度的區域性幾何資訊,如尖銳邊緣或嚴重形變,而分散式觸覺手套設計則可以在遮擋過於嚴重而無法獲得視覺資訊時獲得更全面的特徵。 表 1:ViTaM 方法在真機物體上的重建效果指標 表 2:ViTaM 方法與前人的基線方法的定量指標的比較 在複雜的操作任務中,捕捉手與可形變物體之間的觸覺資料並進一步估計手物狀態一直是一個巨大挑戰。特別是,缺乏準確、分散式且具有可伸縮性的觸覺陣列,阻礙了視覺 - 觸覺學習的融合,限制了對一般人類操作的理解。尤其是在可伸縮介面上的應變干擾,會嚴重影響力的測量準確性和應用效果。 本文提出了一種用於操作的視覺 - 觸覺聯合記錄與跟蹤系統,其中觸覺輸入透過一款具有 1152 個感測通道和 13Hz 幀率的高密度可伸縮觸覺手套捕獲。該觸覺手套整合了一種主動的應變干擾抑制方法,其力測量的準確率達到 97.6%。與未經校正的測量資料相比,ViTaM 的感測器準確度提升了 45.3%。這一主動方法在材料 - 電路層面工作,更符合人類在接觸剛性或可形變物體時的自適應觸覺感知。與傳統的應變干擾抑制策略相比,從結構設計和材料選擇角度來看,本文提出的主動方法具有易於整合、成本效益高、大面積適配、耐用性強及廣泛的應變抑制範圍等優點。ViTaM 系統實現了跨模態資料特徵的融合,揭示了手物互動過程中的被遮擋狀態,推動了智慧體在人形體與機器互動(HMI)中理解能力的發展,尤其是在力學互動方面,向人類觸覺感知的水平邁進了一步。 展望未來,ViTaM 系統將被整合到機器人表面覆蓋的電子皮膚中,實現與周圍環境的無縫互動,能夠感知並響應多種環境刺激。此外,捕捉和恢復人類操作過程中的動態狀態將有助於更好地理解人類行為,並提升機器人靈巧操作的能力,推動從物體特定操作到通用操作場景的技術進步。