當姿態估計演算法遇上《本草綱目》，看“劉畊巨集男孩”如何驅動虛擬人

最近，最炙烈的話題莫過於劉畊巨集的男孩女孩們。

劉畊巨集的燃脂健身直播刷屏網路，掀起了一陣狂熱不退的居家健身潮，以周杰倫的《本草綱目》為旋律的毽子舞，更是引發了全民打卡熱。

於是，程式設計師圈是怎麼遊刃於這波熱潮的？

阿里雲程式設計師化身“劉畊巨集男孩”

https://www.youku.com/video/X...

一則程式設計師的“本草綱目”讓大家預熱體會一下“人體姿態估計演算法”。

短視訊中，阿里雲視訊雲工程師身上酷似“火柴人“的造型，便是將“人體姿態估計演算法”視覺化，而人體姿態識別是計算機視覺中的重要任務，也是計算機理解人體的動作、行為不可或缺的一部分。

早在劉畊巨集現象之前，視訊雲技術團隊就開始深耕人體姿態估計演算法，此次演算法工程師們紛紛化身“劉畊巨集男孩”，就是為了探索“人體姿態估計演算法”的真實場景應用。

我們知道，在劉畊巨集健身熱潮的同時，隨之受傷的男孩女孩們更是不計其數，雖然劉畊巨集在社交媒體會為部分粉絲批改視訊、糾正動作，但還是難以解決部分粉絲跟跳受傷的情況。

當然，肉眼識別的誤差很大，僅靠人力是無法完成粉絲的動作糾正。於是，一種更智慧、更高效的識別技術可以解決這個問題，即“人體姿態估計演算法”。

人體姿態估計演算法？

人體姿態是人體重要的生物特徵之一，進行姿態估計是人體數字化與智慧化的重要技術基礎，具有廣泛的應用場景，包含步態分析、視訊監控、擴增實境、人機互動、體育科學等等。

我們所說的人體姿態估計（Pose Estimation），包含了目標檢測、人體骨骼關鍵點檢測、分割等關鍵技術，旨在給定影像視訊之後，根據影像視訊中的人體資訊，定位並確定人體各個部位的骨骼關鍵點，從而對人體的姿態進行估計。

可以看到短視訊中工程師們身上酷似“火柴人”的形態，代表了人體18個人體骨骼關鍵點（頭部、肩部關節、肘部關節等）的精準識別。

人體18個人體骨骼關鍵點

阿里雲視訊雲的人體姿態估計演算法，能夠快速、精準實現靜態和動態場景下的動作識別，並且，更關鍵的是，能隨著人體的運動變化可以在移動端實現多人、實時跟蹤識別。

移動端實時人體18個關鍵點識別
移動端實時人體18個關鍵點識別

要知道，在移動端實現多人、實時跟蹤識別，並非易事。

移動端受限於硬體計算能力，特別是一些效能較差的低端機，需要設計輕量級的模型結構和工程化策略來實現實時執行，而多人識別的難點在於如果對每個人進行分別單獨的預測，所耗時間就會成比例上升，也難以實時完成。

為了實現實時和精度的平衡，阿里雲視訊雲在技術上對Bottom-Up方案（先檢測出影像中的所有關節點，再判斷每一個關節點屬於哪一個人，實現步驟是關鍵點檢測到關鍵點匹配）進行了整體的改進和優化，其預測了兩個feature map分支，一個是如肩部關節、肘部關節等關鍵點未知的預測，另一個是預測兩兩關鍵點之間的向量場，這是用來判斷各個關鍵點屬於圖中的哪個人，並通過“匈牙利演算法”來組裝成一個完整的人。

由此，才能實現移動端多人實時的姿態識別，開啟更低門檻、更廣泛的商業場景應用空間。

演算法帶來的真實價值

技術的探索，終點服務於人的生活。

人體姿態估計技術的一個應用是動作識別。

例如在體育健身場景中，阿里雲視訊雲的人體姿態估計演算法，除了能夠識別各種動作及對風險動作進行識別預警，進而還能給出動作準確度等資訊反饋，利用運動更精準、更實時、更多人的準確性判斷，同時也可對跳繩、深蹲、俯臥撐等各類動作進行運動計數等更多數字化體育科技服務。

人體姿態估計的動作識別

具象到場景，技術在養老、醫學、體育競技、運動訓練等等場景都有重要價值。

在養老行業，通過演算法可精準識別老人的潛在危險動作並實時發出預警；

在醫學領域，技術可用於觀察骨骼恢復狀況，以及病人的姿態監督；

在競技體育界，可以通過監督運動員姿態，建立輔助訓練系統，分析運動員的每一時刻的動作，協助運動員找到更好的姿勢；

在日常運動上，技術可以更直觀地應用於各類健身、體育、舞蹈等的自動教學上。

當然，在視訊監控、金融服務、移動支付、娛樂社交、遊戲互動等更多具體場景中，該技術還有更具價值的應用空間。

更智趣的虛擬人驅動

人體姿態估計技術的另一個有趣應用，是通過追蹤人體姿態的變化來實現虛擬人的驅動。

一般來說，真人驅動型虛擬數字人是以真人為核心，通過3D建模、動作捕捉技術、渲染等技術，形成一個虛擬化身。

目前，虛擬數字人肢體動作的主要實現方式是光學式動作捕捉、慣性式動作捕捉，及基於計算機視覺的動作捕捉。

光學式動作捕捉的原理是跟蹤、識別並命名目標身上各反游標記點，得出目標的基本骨架，再對標記點位進行持續跟蹤。慣性式動作捕捉主要以裝備用於人體各主要骨骼節點上的慣性感測器，從而完成資料採集，通過處理建立運動的三維模型。

然而，當前的這兩種方式存在諸多問題：對環境要求高、軟硬體裝置高昂，以及精度較低、連續使用易產生累積誤差等。

https://www.youku.com/video/X...
虛擬人實時驅動示意

然而，大家可以看到，視訊中的工程師即使在普通室外環境及無穿戴感測器裝置的情況下，便可精準驅動虛擬人，這便是基於計算機視覺的動作捕捉，即基於拍攝到的二維影像、三維形狀特徵，以還原各關節點運動資訊。

值得一提的是，阿里雲視訊雲的技術團隊通過視訊雲超輕量級別的人臉跟蹤及AAI推理框架實現了虛擬人的面部表情模擬，並能在PC端CPU實現實時驅動+渲染，同時正在加入手掌及手勢的全態模擬，在虛擬人的互動性與時效性上帶來更多體驗、更多價值。

除了以上，目前阿里雲視訊雲的人體姿態估計演算法的諸多應用已經整合到阿里雲Queen SDK產品中，而在人體姿態識別的基礎上，Queen本身還有多項人體特效功能，如精準美體瘦身等，也歡迎大家體驗demo（體驗連結）。

人體姿態估計的重要應用價值，不僅豐富於生活場景，更吸引著越來越多工業界以及學術研究人員的目光。未來，隨著人體姿態估計相關技術的持續升級，其應用優勢會更加顯性，應用領域也將更加廣泛。

同時，人體數字化與智慧化是更大的課題，對於虛擬世界、大健康產業、工業產業都是更具突破性的技術延展，阿里雲視訊雲也將繼續探索先進的視覺智慧技術，促進人體數字化與智慧化在各行各業的真實落地。

「視訊雲技術」你最值得關注的音視訊技術公眾號，每週推送來自阿里雲一線的實踐技術文章，在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群，和業內大咖一起探討音視訊技術，獲取更多行業最新資訊。

當姿態估計演算法遇上《本草綱目》，看“劉畊巨集男孩”如何驅動虛擬人

阿里雲程式設計師化身“劉畊巨集男孩”

人體姿態估計演算法？

演算法帶來的真實價值

更智趣的虛擬人驅動

相關文章