感動哭了，機器人終於學會自己疊衣服了

如果我們要鍛鍊一個人類小孩最基本的運動智力，比如抓握抬舉，或者是疊被子疊衣服這樣的家務活兒，幾乎是不需要指導的。

很多時候只要將嬰孩放置到日常生活情境中，讓他與周圍的環境和物體互動，大多數就能在玩耍中自動掌握判斷空間、重力、協調等能力了。

與之相比，機器人就比較“嬌生慣養”了。

目前絕大多數機器人，都無法自我適應和從對複雜的環境中學習通用運動能力。

這就帶來了一個難題：機器人只能很“笨拙”地完成一些程式設計師率先程式設計好的動作，並且是用單一的物體來完成單一的技能，這個特定的任務和道具就是它的全世界。比如，會遞杯子就不會疊被子。

感動哭了，機器人終於學會自己疊衣服了

這意味著，我們可能要設計成千上萬種機器人，只為了應對某一個具體任務。這實在是太蠢了。

不過，要讓機器學會自主感知世界，並根據環境變化做出相應的動作，那可是個大工程。

最近，伯克利大學就研究出了一種新的演算法，基於視覺模型的強化學習，讓全能機器人成為可能。

換句話說，原本獨屬於人類的“元運動智力”，也有望在機器身上開啟。

當機器人具有了掌握一般性技能並將其內化成“經驗”的能力，能夠靈活地執行多種同類任務，不需要每次都重新學習或程式設計，前景顯然是值得驚喜的。

那麼，這麼神奇的事情究竟是怎麼實現的？

新演算法是如何指導機器工作的？

簡要來說，這種演算法可以通過一個預測墨西哥，使用沒有標籤的感官資料集，讓機器自主學習大量多樣化的影像，進而在完成任務時更靈活地預測和判斷。這樣，它就能執行在各種不同的物體上執行很多不同任務，而不需要針對每個物件或每個任務都重新學習一次。

在伯克利大學的研究人員眼中，能夠在單一模式下獲得這種通用型運動能力，是智力的一個基本體現。

那麼，這種方法究竟是如何指導機器人完成工作的呢？

首先，研究人員為機器人制作一個龐大且豐富多彩的資料集合，不侷限於某一個物體或某一項技能；

然後，為機器人裝上了能夠感知影像畫素（視覺）、手臂位置（自我感覺）和傳送電機指令（動作）的各種感測器。

完成這些準備工作之後，就讓兩個機器人同時在資源庫中自主收集資料和學習，並且實時進行分享。

由於兩個機器人可以分享彼此的感覺和資料，這就使其掌握了預測接下來手臂移動路線的能力，從而使得動作的運動範圍具備了更大的伸縮彈性，以完成操作不同型別物體的多樣任務。

比如他們就讓一臺機器完成了移動蘋果這樣的剛性物體，以及摺疊衣服這樣的柔性物體，機器人都表現的還不錯。

感動哭了，機器人終於學會自己疊衣服了

而且，即使面對以前從未見過的目標，雖然做出的預測並非和人類一樣十全十美，但仍然可以有效地完成指定任務。

比如下圖中，研究人員給出的任務是把蘋果放在盤子裡，中間是機器人做出的計劃，然後是執行的情況。

感動哭了，機器人終於學會自己疊衣服了

這個演算法模型在想法上絕對是別具一格。一直以來，基於預期結果來規劃行動路線，並根據不同步驟和觀察狀況來實時迭代和改進計劃，是人類應對複雜世界意外的獨特技能。如今，機器人也有望學會這樣的“高智力”遊戲，在應用性上帶來的改變令人真實心動了。

重建機器效率的座標系：新模型的應用場景

現實環境是複雜多樣的，提高機器人對環境的適應能力，讓任務執行更加靈活，這個新演算法確實給機器人應用帶來了極大的想象空間。

最大的亮點在於，對機器的功能設想更符合現實情況。通用能力可以很容易地被遷移到不同的任務上，大大減少了完成特定任務所需要開發和部署的演算法數量。

目前看來，新模型至少會在以下領域革新機器人的表現：

1.客服機器人。大多數客服機器人對環境不具備適應性，需要程式設計師將各種情況考慮在內，有的甚至直接由人工在後臺進行互動操作。但有了通用模型演算法之後，機器人就能夠在與人類使用者的互動中自主學習，學會解決一些開放型問題，變得更加自主靈活。

2.醫學機械。目前，醫學機器人只能作為醫生雙手的延伸來協助完成手術任務。要自主完成高精度手術，幫助減少醫生的勞力，醫學機器人必須能夠感知手術部位的空間位置、處理更精細、更高複雜度的操作，新的模型顯然提供了更多的可能性。

感動哭了，機器人終於學會自己疊衣服了

3.工業機械。工業機器人已經擁有了一定的通用性和適應性，但往往都需要跟隨其工作環境變化的需求再程式設計，或者是更換不同的操作器來執行不同任務，都會帶來一定的成本。如果新演算法被真實應用起來，工業生產的成本和效率都將變得更低。

4.個性化視訊生成。除了在現實世界中進行動作感知和理解預測，該演算法在視訊生成領域也有極大空間。比如系統可以通過大量無需標記的視訊資源自主學習，根據視訊中的人物進行體態識別和模仿，讓AI量身定製高擬人度的視訊成為可能。

掌握了通用技能的機器應用還有很多，其背後的商業前景也十分廣闊，畢竟效率才是人類發明機器的初衷。

品嚐果實之前，還需應對哪些挑戰？

說了這麼多，感覺新演算法的實現並不難，應用端也有著足夠的承託力。是不是很快就可以成為現實了呢？

目前來看，在“摘桃子”之前，該演算法還有一些特殊的限制，可能會使其在實際應用中受阻。

一是需要的訓練資料量很大。機器做出實際可執行的操作預測，完全依賴於龐大多元化資料集。

為了讓機器能夠根據預測先前幀的運動分佈來想象和模擬接下來的畫素運動，研究人員引入了59,000個機器人互動的資料集，進行大規模自監督學習。

如何在成本控制之下獲取龐大優質的資料資源，恐怕會成為演算法落地的頭號門檻。

感動哭了，機器人終於學會自己疊衣服了

二是無監督學習帶來的一系列問題。比如，由於訓練資料完全沒有標籤和獎勵機制，如何保證機器人能夠理解並接受指定任務，再以結果導向展開行動，在現實層面有很多未知性。

伯克利的解決方案是設定一個自我監督演算法，讓機器保持對目標的興趣，持續跟蹤並不斷重試，直至成功。但是否能夠穩定輸出，還需要更多的補充研究。

再比如，無監督下機器做出的預測都是人類無法用自主經驗來解釋的，有可能並不是最優的傳輸方案，還可能因為“黑箱”帶來不可預知的風險。

感動哭了，機器人終於學會自己疊衣服了

當我們還不理解自己的“元智力”是如何運作的時候，又如何保證可以將機器的“元智力”控制的很好呢？

總而言之，這一演算法雖然很令人驚喜，但也並非完美。想象很美好，實用性也不算差，但從實驗室到商業場景之間，還有很長的一段路要走。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561483/viewspace-2285816/，如需轉載，請註明出處，否則將追究法律責任。

感動哭了，機器人終於學會自己疊衣服了

相關文章