快手上線手部姿態估計功能,官方揭祕秒變閃電手背後的奧祕

新聞助手發表於2019-04-25

轉動一下手指和手掌,鋼鐵俠迅速就完成了戰甲製作,這種神技能讓螢幕外的粉絲們一秒跪服。鋼鐵俠的“純手勢感應”也成為一個被科技行業頻繁討論的話題。

那普通人是否也能獲得這種狂拽酷炫吊炸天的操作技能呢?

可以。快手給出了答案。                                   

快手上線“裝X神器“:秒變閃電手

隨著技術的發展,研發人員越來越希望尋找一些不同的人機互動方式,其中實時手部姿態估計就是科學家們重點關注的研究方向之一 。簡單的說,手部姿態估計是讓計算機理解人體肢體語言的一種手段。通過該技術,人機互動不再限於文字介面或者滑鼠鍵盤控制的使用者影象介面。

近日,快手上線了手部姿態估計功能,成為行業首家。這個功能給普通人賦予了“裝X神器”:動動手,就可以實現酷炫的特效。快手上線手部姿態估計功能,官方揭祕秒變閃電手背後的奧祕

使用者只要按照說明做出相應的手勢,就可以被加上各種有意思的特效。比如,使用者可以在視訊中當一回真正的“奧特曼”,發射出動感光波球。還可以秒變狼爪、閃電手。展示童年時傾慕的漫威形象用的大招,通通不是問題。

使用者在使用這款產品拍攝時,演算法會自動識別出手型類別,並估計手部關鍵點位置。根據關鍵點位置和手型類別,可以產生不同的特效效果或者跟畫面內容進行人機互動。使用者既可以通過手型觸發相應的特效效果,也可以實現指節級精準控制。

這個功能上線後,有大量的使用者嘗試這些新奇的玩法。

揭祕手勢識別,快手解決了哪些問題?

手勢識別技術由快手2016年組建的Y-Lab團隊手勢研發小組研發。這一年,為了研發出更多能給使用者帶來新奇體驗的新技術,快手組建了一支由高學歷研發人員組成的隊伍,研究領域涉及人工智慧機器學習、計算機視覺、計算機圖形學和擴增實境 等。2018年,為了讓技術能更好的和產品結合,快手將Y-Lab更名為Y-tech。快手上線手部姿態估計功能,官方揭祕秒變閃電手背後的奧祕

據Y-tech手勢研發組負責人介紹,手勢識別技術是指檢測圖片或視訊中的人手,並預測檢出人手的手型以及關鍵點位置的技術。

常見的手勢識別技術包括:手型識別、二維手部姿態估計和三維手部姿態估計。從手型識別到三維手部姿態估計,需要識別的資訊越來越多,研發困難指數級增加。在上面演示的功能裡,就包含了:人手檢測、手型識別和二維手部姿態估計。

目前手型識別在業界已比較成熟,而二維手部姿態估計目前還不是很成熟,據介紹,快手應該是業界首家在移動端上應用該技術的公司。而三維手部姿態估計技術難度較大,目前只能通過特殊的硬體,比如雙目和深度攝像頭才能實現。

研發手勢識別過程中,Y-tech團隊積累了很多技術和解決方案,包括演算法策略、網路結構設計、模型優化和底層加速等,這些經驗也完全可以複用到其他場景中。

相比於目前人工智慧領域落地比較廣泛的人臉識別,手勢識別技術存在著一些技術難點,Y-tech手勢研發負責人表示:“手部的自由度很高,自遮擋嚴重,特徵不明顯,相對人臉會更難一些。”

以快手為例,目前這一功能可同時檢測多手,支援多達17種手型識別,並能夠識別21個手部二維關鍵點。為了實現這些功能,研發團隊克服了不少難題:

•   人手在相機中的佔比較小,高效的進行小目標檢測目前在業界是很難的問題;

•   人手自遮擋嚴重關節活動自由度高

•   使用者手機只有單目影象,需純靠視覺演算法實現;

•   使用者手機攝像頭拍攝質量不同使用者在擺同樣手型時方式多樣

該負責人表示,團隊先是改進了檢測演算法的框架,提高了小目標的檢測能力,並且根據人手的特點,融合先驗知識,降低問題複雜度,達到了提升預測效果。

由於不同使用者手機的運算能力是不同的,而同一款軟體要想被更多使用者使用,就要兼顧各種機型的情況,快手AI實驗室通過兩方面解決了這一難題:

一、在演算法層面,研發人員設計了高效的神經網路結構,並且在不同的機型上採用了不同演算法策略;

二、在工程實現上,通過快手自研的YCNN對不同手機的硬體架構做了高度的適配和效能優化,能夠使用CPU、GPU、NPU、DSP等多種執行模式,解決了AI技術執行受限於使用者裝置計算量的問題。

下一步:未來將嘗試三維手部重建

對於快手來說,在手機應用中增加手勢識別功能是一項嘗試,功能上肯定是有不少需要完善的地方,研發團隊告訴我們,目前該產品演算法對運動模糊和手部重疊的處理還不完善,是接下來需要重點解決的問題,並且未來團隊會嘗試在端上進行三維手部重建,為更精確的動作識別和互動做技術儲備。除了在短視訊領域有所應用,在遊戲、擴增實境、直播、教育等領域應用手勢識別技術也將成為一種趨勢,同樣也是快手探索的方向。

手勢識別技術發展至今,已經有不少企業在不同的領域進行過嘗試,未來手勢識別的應用場景也是十分廣闊的,除了小手識別和運動模糊等傳統問題之外,如何結合端上雙目攝像頭和深度攝像頭資訊提升手勢識別效果也將是行業重點關注的問題。

相關文章