CMU借力Panoptic Studio提出新方法,幫助計算機讀懂肢體語言

黃小天發表於2017-07-10

近日,卡內基梅隆大學在 eurekalert.org 上發表了一篇題為《A computer that reads body language》的文章,其中研究人員提出了一種新方法,可通過視訊讓計算機實時理解肢體語言,並追蹤多個個體的身體姿勢,包括面部表情和手勢,甚至首次實現每個人手指動作的識別。




美國匹茲堡的卡內基梅隆大學機器人研究所人員通過視訊使一臺計算機實時地理解多個人的身體姿勢和動作,甚至首次實現每個人手指動作的識別。這種新方法的誕生得益於全景工作室(Panoptic Studio),一個內建 500 個視訊攝像頭的兩層樓高的圓頂建築。藉助該設施,研究人員現在可用一臺照相機和膝上型電腦來檢測一群人的姿勢。


機器人學副教授 Yaser Sheikh 說,這些用於追蹤人類二維形態和運動的方法,為人們和機器之間的互動開闢了新途徑,並讓人們使用機器來更好地瞭解周圍的世界。例如,識別手勢的能力將使人們能夠以新的和更自然的方式與計算機進行互動,比如僅通過一個指向動作來與計算機進行交流。

檢測個體之間非語言溝通的細微差別的能力,將使機器人能夠服務於社交場所,感知周圍的人在做什麼,瞭解其正處於何種情緒狀態,以及可否被打斷。一輛自動駕駛汽車可通過監測肢體語言而獲得預警:一位行人即將進入街道。這一幫助機器理解人類行為的新技術還可為諸如自閉症、閱讀障礙和抑鬱症等疾病的行為診斷和康復提供新方法。

「我們的肢體交流幾乎和說話一樣多,」Sheikh 說。「但計算機多少有些盲目。」在運動分析中,實時的姿勢檢測將使計算機不僅能夠追蹤每一位運動員在賽場上的位置(這已成為現實),而且還能瞭解運動員在每一個時間點手臂、腿和頭部的姿勢。這些方法可以用於現場直播或錄播。


為了鼓勵更多的研究和應用,研究者們已經開源了他們的用於多人和手勢評估的程式碼。Sheikh 說,他們的程式碼已經被研究團體廣泛使用,而且包括汽車公司在內的 20 多家商業集團已經表現出買斷該技術的興趣。

Sheikh 及其同事在 7 月 21-26 日檀香山舉辦的 2017 計算機視覺與模式識別大會(CVPR)上就多人和手勢檢測演算法做了報告。實時跟蹤多人,特別是在其可能存在社交關係的情況下,面臨著諸多挑戰。僅僅使用追蹤個體姿勢的程式在應用於群體中的每個個體時,尤其是在這個群體變大時,效果不佳。Sheikh 及其同事採用了一種自下而上的方法,首先將所有身體部位都放在一個場景中——手臂、腿、臉等——然後將這些部位與特定的個體聯絡起來。


手勢檢測難度更大。當人們用手握住物體並做手勢時,照相機不太可能同時看到手的所有部分。與臉部和身體不同的是,大型資料集不存在由部位和位置的標籤標註的手勢影象。但是對於每一個只顯示部分手勢的影象而言,從一個完全不同或互補的角度來看,往往存在著另一個影象,機器人學博士生 Hanbyul Joo 說。這就是研究人員利用卡內基梅隆大學的多攝像頭全景工作室的原因。


「一次拍照能讓你從 500 個角度看一個人手,而且自動註解手的位置,」Joo 解釋道。「但是人手相對其他部位較小,以至於我們的大多數攝像頭無法為其做註解。因此,對於這項研究,我們只使用了 31 個高清攝像機,但仍然能夠構建一個龐大的資料集。」

Joo 與另一個博士生 Tomas Simon 用他們的手生成了數千張檢視。「全景工作室推進了我們的研究,」Sheikh 說。目前工作室正通過聯合訓練來改善身體、面部和手部探測器。此外,隨著工作從人類的二維模型轉移到三維模型,該裝置自動生成註釋影象的能力將是至關重要的。


Sheikh 說,十年前,該全景工作室在美國國家科學基金會(NSF)的支援下建成時,還不清楚它會產生什麼樣的影響。「我們現在之所以能夠突破一些技術壁壘,主要是因為 NSF 在 10 年前的資助,」他補充說。「我們正在開原始碼,以及全景工作室拍攝的所有影象資料。」CMU借力Panoptic Studio提出新方法,幫助計算機讀懂肢體語言

原文連結:https://www.eurekalert.org/pub_releases/2017-07/cmu-act070617.php

相關文章