隔空手勢互動，在現實世界上演“得心應手”

【得心應手：心裡怎麼想，手就能怎麼做】

手，作為人體最靈活的器官，參與我們生活的方方面面；手，是除了眼睛之外能直接感受三維世界和物體的器官；手，作為無聲的互動工具，已經在計算機領域佔了無比重要的地位。

在人機互動介面，手的互動是至關重要的，於是我們開始有了越來越多的“觸控互動”，但隨著技術的發展，為了身體解放，越來越多的裝置引入了“手勢互動”技術。

“手勢互動”在於，人們在各種電子裝置的使用時，可以不再侷限於通過接觸螢幕、滑鼠、鍵盤等進行操作，而是完全擺脫操作介質。

阿里雲視訊雲的“隔空手勢”，便是一項“未來式”互動方式技術。

上班不用滑鼠，上演“隔空”操作

https://www.youku.com/video/X...
一則程式設計師的“隔空手勢”視訊，可以體感一場辦公場景下的隔空互動操作，這是阿里雲視訊雲基於手勢識別技術研發的“智慧手勢互動引擎”。

可以看到，短視訊中的程式設計師，無論是瀏覽頁面、登入系統、還是精細的完成視訊剪輯，都不再是通過滑鼠、鍵盤按部就班的操作，而是以各種靜態和動態的手勢，順滑、實時、精準的實現隔空控制與操作，而這種精細的操控程度，在隔空手勢互動技術上，是突破現有瓶頸的。

對比“觸控互動”需要使用者和裝置進行接觸操控，“語音互動”需要進行聽、說以及高精度識別的過程，而“手勢互動”具備人類使用習慣的天然優勢，成為“觸控互動”及“語音互動”的不便利場景下的另一優解。

說到隔空手勢互動，其基礎便是“手勢識別”技術。

從手勢識別說起

在電腦科學中，手勢識別是通過數學演算法來識別人類手勢的一個議題，即使用者可以通過手勢來控制或與裝置互動，讓計算機理解人類的行為。

手勢識別的關鍵技術包含，手勢分割、手勢分析，以及靜態和動態的手勢識別。無論是靜態還是動態的手勢，其識別順序首先需要對所獲影像的手的檢測和手勢分割；再通過手勢分析，獲得手勢的形狀特徵或者是運動軌跡；最後根據手勢分析中的重要特徵，完成靜態或動態的手勢識別。

手勢識別的研究和發展影響著人機互動的自然性和靈活性。當前，業內大多數研究者將注意力集中在手勢的最終識別方面，通常會將手勢背景簡化，在單一背景下利用演算法對手勢進行分割及分析。

但在現實應用中，人的手通常處於複雜的環境下，需要考慮如：光線過亮或過暗，手勢距採集裝置距離不同等複雜因素，從而做到精準的手勢識別。

阿里雲視訊雲的“智慧手勢互動引擎”，如何使“隔空手勢”更具智慧性和互動力？

高效能的智慧手勢互動引擎

由於複雜的手指手掌結構和在運動時的高度靈活性，手勢關鍵點跟蹤十分具有挑戰性。阿里雲視訊雲團隊研發的智慧手勢互動引擎，通過對21個手部關鍵點的精準識別和跟蹤，支援25種基礎靜態手勢的識別。

基於這25種基礎手勢，結合手掌姿態的資訊和場景，可以延伸出百餘種手勢。例如伸大拇指的手勢，我們可以根據大拇指和大拇指的方向精準識別出：點贊（拇指向上）、差評（拇指向下）、向左（拇指向左）、向右（拇指向右）等等。

https://www.youku.com/video/X...
視訊中，Left_Prob表示左手的置信度, Gesture_ID表示識別到的手勢ID。

除了靜態手勢之外，類似上下左右滑動、左右翻頁、縮小放大、拜拜等多種動態手勢也能被精準識別和跟蹤，從而實現上述視訊中“隔空”實現視訊剪輯的效果。

值得一提的是，阿里雲視訊雲的“智慧手勢互動引擎”的演算法不僅能保證“高精度”和“高穩定性”，更是做到了“超輕量” 。

“高精度”是指能夠準確的識別各種各樣的手部姿態及定位手部關鍵點的位置，即使在暗光、背光等挑戰性場景也有很好的表現；

“高穩定性”，是通過演算法的深度打磨，能夠對手部關鍵點檢測輸出穩定的關鍵點位置, 做到手勢互動操作的超低延遲。

“超輕量”體現在普通裝置單執行緒執行中, 平均每幀耗時僅有6.5毫秒，處理效能可以達到150fps以上，模型大小僅為2.6MB，相容所有主流平臺，非常適合在普通的移動端手機的部署和應用。

一切因手勢互動而卓然不同

新互動正在成為趨勢，而解放身體的更自然的互動也是互動演進的方向，可以想象，能夠為生活、工作、學習帶來全新的形態與體驗，而阿里雲視訊雲的隔空手勢互動作為“互動黑科技”，已經可以逐步運用到各類場景中。

在互動課堂場景，為了視力健康和豐富體驗，學生可以全程與螢幕保持距離，通過隔空手勢，學生可以完成課程選擇、問題回答、翻頁、舉手等多樣化的互動操作。

在疫情常態化和課堂線上化的今天，智慧手勢互動引擎助力行業使用者重新定義了線上課堂的教學內容互動模式，使師生螢幕前的教學不再是單向的知識灌輸，而是以線上課堂的互動性與感知度，高度豐滿教育智趣。

https://www.youku.com/video/X...

在電商與娛樂直播場景，主播一邊直播一邊操控手機螢幕會造成的極大不便，然而，利用手勢互動，主播可以通過手勢特效與直播觀眾實時互動，還可以用手勢來控制直播流程和畫面；在使用者端，可以結合使用者的手勢，如：點贊、比心等等，實時呈現相應的各種貼紙和特效，極大提升互動體驗。

在數字展廳場景，數字化的視覺展示一直在不斷創新，利用隔空手勢，參觀者可以不用操控螢幕，通過隔空手勢對展品的旋轉移動，可以360度全景瞭解展品，尤其在疫情時期也能減少密切接觸帶來的安全隱患。

在智慧駕駛領域，將手勢識別應用到駕駛輔助系統中，司機可以使用手勢來控制車內的各種功能、引數，避免視線轉移帶來的駕駛安全隱患。

而在日常生活中，隔空手勢識別更可以與智慧硬體做深度結合，例如智慧家電、智慧機器人等，以隔空手勢來才操控家電，便利性更加凸顯，讓人機互動更有體驗感。當然，把隔空手勢識別運用到生活的線下活動中，發揮想象力，還可以有更多有趣的互動體驗。

針對“智慧手勢互動引擎”，阿里雲視訊雲已經在2D手勢識別進行了較為成熟的技術與應用沉澱，未來，也將繼續探索先進的手勢互動技術，尤其是針對3D手勢互動，通過檢測手在三維空間中的位置資訊，我們可以更加準確的識別手部的動作, 從而實現更加複雜的互動，例如驅動一個3D的虛擬人, 或者實現手持虛擬物品等AR特效。通過3D手部姿態的識別，以帶來更豐富、更沉浸、更智慧線上互動體驗。

莊子《天道》曾說: “不徐不疾，得之於手而應於心，口不能言，有數存焉於其間。”
即，“不慢不快，應於心而得之於手，雖不能言說，卻有技巧奧妙存在於其間。”

手勢互動技術一定是這樣的奧妙存在，不論任何場域，讓你得心應手。

「視訊雲技術」你最值得關注的音視訊技術公眾號，每週推送來自阿里雲一線的實踐技術文章，在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群，和業內大咖一起探討音視訊技術，獲取更多行業最新資訊。

隔空手勢互動，在現實世界上演“得心應手”

上班不用滑鼠，上演“隔空”操作

從手勢識別說起

高效能的智慧手勢互動引擎

一切因手勢互動而卓然不同

相關文章