機器視覺之外,機器人的感知補全計劃

naojiti發表於2020-09-02

我們知道,人工智慧的目標之一就是讓計算機模擬人類的視覺、聽覺、觸覺等感知能力,嘗試去看、聽、讀,理解影像、文字、語音等,在此基礎上,再讓人工智慧具有思維能力、行動能力,最終成為跟人類一樣的存在。

現在,人工智慧機器人的感知能力已經實現了明顯的進展。圍繞機器視覺,機器人可以實現一系列像影像識別、目標檢測和文字識別等功能得到廣泛應用;圍繞自然語言處理,機器人可以進行基本的語音理解、機器翻譯、語音對話等;圍繞機器觸覺,機器人可以實現靈活的物體感知、抓握推舉等各種動作。

單一感知或者說感知能力無法互通,成為當前人工智慧機器人無法實現類人化突破的一大原因。也就是說,在單一感知能力和單一工作上,機器人的準確度、穩定性和永續性上面,可能遠超人類,但一旦在完成多道工序的複雜任務上面,機器人就遠遜於人類的表現。

人工智慧機器人想要實現質的發展,就必須在感官能力上面實現多模態的感知融合。現在除了在我們熟知的機器視覺方面,人工智慧機器人正在機器觸覺和聽覺方面實現突破,並且透過視覺、觸覺和聽覺的感知融合,來大幅提升機器人的感知能力。

對於人工智慧機器人,普通人要麼抱有很高的不切實際的幻想,擔心機器人革命會很快到來,要麼對機器人的通用能力保持懷疑,覺得機器人只能在少數場景替代人類。

只有深入到人工智慧機器人的“案發現場”,不吹不黑地看下機器人感知能力的發展狀況,才能知道當前機器人的感知補全計劃的真正進展。

機器視覺和機器觸覺

作為地球上最有智慧的生物的人類,感官獲取資訊的83%來自視覺,11%來自聽覺、3.5%來自嗅覺,而1.5%來自觸覺,1%來自味覺。

在這五種感官中,如果你不幸地只能保留一種,可能大部分都會保留視覺。要知道我們大腦的近1000億個神經元,大多數都在處理視覺資訊。而在所有的感知資訊中,也只有動態的視覺資訊是最為複雜的,以至於人類得靠著閉上眼睛主動隔離才能叫“休息”。

正因為視覺資訊的重要和複雜,我們在人工智慧技術的發展上,除了自然語言處理,那就主要在發展機器視覺了。

這一次人工智慧的浪潮也是因為在影像識別上的突破進展才重新興起。如今,機器視覺已經在工業、安防、日常消費電子、交通等各個領域全面開花,越來越多的攝像頭背後都具有了AI的影像識別能力。

對於大多數人工智慧機器人而言,除了有視覺能力,還有就是移動行走和抓取能力,這就需要用到觸覺的幫助。對於往往只有單一功能的自動化機器人,通常只需設定好固定的引數、移動軌跡和抓取力度,即可不休不眠地完成工作任務。但對於人工智慧機器人而言,則要靈活適應各種不同材質、不同形狀和軟硬度的物體,這個時候就既需要機器視覺的識別能力,也需要對於物體的觸覺判斷。

之前,大部分機器人的抓握解決方案都是單靠機器人的視覺感知。主要的解決辦法就是透過資料庫進行影像匹配,將目標物體的狀態和自身動作進行實時監測,最終調整合適的抓取演算法,來完成物體的抓取,但是有關抓握的接觸力度,則是機器視覺無法代替的,這樣機器還需要觸覺上的感知資料。

就如同人類一樣,我們在嘗試抓取物體時,會組合運用各種感知能力,最基礎的就是視覺和觸覺。由於視覺會因為光線、陰影、視線遮擋等因素,造成誤判,我們通常會更有效地利用皮膚的觸覺,來獲得對於物體完整的感知。

人體的觸覺感知也是一個非常複雜的生物電訊號反應的過程,那麼要賦予機器以觸覺能力也需要經過非常複雜的處理。模擬人體的觸覺反應,機器人的觸覺感測器也必須能夠將物體的質地、光滑程度以及物體形態進行數字模擬處理,將壓力和振動訊號變成可以計算機處理的資料訊號,從而進行觸覺演算法的訓練。

機器觸覺的難點在於對於觸覺感測器獲得的抓握等微小振動的識別,要能夠識別抓握物體發生的滑動振動和物體與其他物體摩擦發生的振動,還要能夠區分不同物體的振動,這些是研究者們重點攻克的難點。

實現突破的方法就是,我們需要更好的觸覺感應器,必須做到比現有的壓力感測器更好的觸覺感測器,能夠嵌入到柔性材料當中,實現像人類皮膚一樣的人造皮膚。

最近新加坡國立大學的兩名研究人員就開發出一種人造皮膚,搭載在一個能夠模擬生物神經網路人造大腦,透過英特爾Loihi的神經擬態處理器上執行。在這一技術基礎上,研究團隊透過了機械手臂讀取盲文的測試,同時藉助視覺感測器和這一人造皮膚,機械手臂的抓取能力也得到明顯提高。未來基於這種觸覺能力的機器人,可以在物品分揀過程中做到更加靈活、細緻和安全,在護理行業上,可以對人類進行更好的看護和幫助,在外科手術機器人上,更好的完成手術的自動化。

視覺和觸覺的結合,已經可以為機器人感知提升提供了可能,那麼聽覺能力的融合,會帶來哪些效果呢?

機器聽覺的補全

這裡的機器聽覺,不是特指對於人類語音的識別。這類語音識別已經在各類消費級的智慧音響等領域得到廣泛應用。這裡的機器聽覺是指透過聲音感測器對於一切物體發出聲音的判斷。

(重卡變速箱聽力診斷)

相比較機器視覺對於物體的判斷的簡單直接,機器聽覺確實是人們一直忽略的領域。在我們的日常生活場景中,我們其實除了用視覺來判斷物體的遠近、顏色和大小之外,我們通常也會用到聽覺來識別物體的距離遠近、質地,推測事件的發生。這一點對於有視力障礙的人來說尤為重要。

最近,卡內基·梅隆大學(CMU)的研究人員發現,透過增加聽覺感知,人工智慧機器人的感知能力可以得到顯著的提高。

這一次CMU機器人研究所首次對聲音和機器人動作之間的相互作用進行大規模研究。研究人員發現,不同物體發出的聲音可以幫助機器人區分物體,比如金屬螺絲刀和金屬扳手。機器聽覺還可以幫助機器人確定哪種型別的動作會產生聲音,並幫助它們利用聲音來預測新物體的物理屬性。經過測試,機器人透過聽覺在對物體進行分類的準確率能達到76%。

為了實現這一測試,研究者透過60個常見物體在一個機器人的托盤上進行滑動、滾動和撞擊,記錄下15000個互動的影片和音訊,形成了一個大資料集。

此外,研究者還可以透過搖晃容器或者攪拌物質的聲音來預估顆粒狀物質的數量和流量,比如對大米和義大利麵進行評估。顯然,透過聲音的對比,可以預測很多透過視覺無法預測的物理屬性。

機器聽覺無法區分一個紅色方塊和一個綠色方塊,但他可以在看不見的情況下的撞擊聲,來區分出兩個不同物體。而這正是機器聽覺的有用性所在。最終對於聲音識別物體的效果,就連研究者也都非常驚訝。

在機器聽覺的應用方面,研究者首先想到的是在未來機器人的裝備儀器上加一個手杖,透過手杖敲擊物體來識別物體,這倒是一個有趣的畫面。但可以想見,在未來智慧安防、管道線路檢測以及身體檢測等方面,機器聽覺可以發揮更大的作用。另外,對於識別最有意義的人類聲音,比如音樂、情感等聲音內容上面,這些應用就更加廣泛。

機器人多模態感知融合的應用前景

正如感覺器官對於人類的重要性而言,感知系統對於機器人的重要性同樣至關重要。

要知道,我們人類其實是很少只用一個感官去獲取資訊,也很少只用一個感官去指導行動。就好像在一場“攀爬-賽跑-游泳”的三合一比賽中,我們在單一專案中可能無法戰勝猴子、豹子和海豚,但是在整場比賽中,人類就可以同時完成這三個專案。我們人類在感知事物的時候通常也是多感官同時發揮作用,相互協調和多次驗證來加深對於外界物體的感知認識。更為複雜的事,我們甚至還要藉助記憶、推理等理性認知能力來對感知事物進行加工,從而得到更為複雜的認知。

相比較於人類的多感官應用,機器人的單一感知或者簡單組合的感知能力,又因為目前機器人的感知識別模式仍然是基於演算法模型對於感知資料的分析和資料對比,因此難以產生更為複雜的推理知識,因此是機器人在認知的複雜度上稍遜於人類,但在識別物體的準確度和規模上就會遠超人類。

現在,多模態感知融合的推進,將使得機器人在認知複雜度上面逐漸接近人類的能力。未來的機器人面對照明和遮擋、噪聲和混響、運動和相似等複雜互動場景,將會變得更加遊刃有餘,從而產生各種收益明顯的現實應用。

多模態感知融合可能應用到的領域,包括:

· 特殊化的精密操作領域。比如高難度外科手術領域,外科手術機器人可以透過對目標的精確觀察和相關組織的分離、固定,進行比外科醫生更精準的手術操作。

· 高危或者高難度的機器人作業。比如危險物品的搬運、拆除,比如普通人無法進入的管線等高難度區域檢測檢修,地下墓穴或海底的物品的搬運、打撈,透過機器聽覺對密封空間的聲音探測等。

像在安防、災害救援、應急處理等需要靈活處理的場景,都可以逐漸交由多感知系統的機器人處理,或者人機協同遠端處理。

此外,由於機器人感知融合能力的提高,機器人對於綜合感知資料的訓練,可以更好地理解人類本身的複雜性,尤其是可以建立更為複雜的情感計算模型,能夠更好地理解人類在表情、聲音、皮膚溫度、肢體動作等方面傳遞出的情感訊號,為更高階的人機互動提供新的可能。

目前來看,人工智慧機器人仍然是一個複雜的系統工程,想要實現機器人的多模態感知融合,還需要對感測器效能、演算法協同、多模態任務、環境測試等多方面進行綜合研究。

這個過程必定是非常艱難的,但取得成果之後的前途必定是一片光明的。在我們期待人類與機器人和諧生活的未來,我們自然更期待這些機器人不再是一臺冷冰冰的機器。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2716701/,如需轉載,請註明出處,否則將追究法律責任。

相關文章