摘要:本文詳細介紹基於深度學習的手勢識別系統,在介紹手勢識別演算法原理的同時,給出了Python的實現程式碼以及PyQt的UI介面。手勢識別採用了基於MediaPipe的改進SSD演算法,進行手掌檢測後對手部關節座標進行關鍵點定位;在系統介面中可以選擇手勢圖片、視訊進行檢測識別,也可通過電腦連線的攝像頭裝置進行實時識別手勢;可對影像中存在的多個手勢進行姿勢識別,可選擇任意一個手勢顯示結果並標註,實時檢測速度快、識別精度較高。博文提供了完整的Python程式碼和使用教程,適合新入門的朋友參考,完整程式碼資原始檔請轉至文末的下載連結。本博文目錄如下:
完整資源下載連結:https://mianbaoduo.com/o/bread/mbd-YpmXlZ9s
程式碼介紹及演示視訊連結:https://www.bilibili.com/video/BV12a411v7vr(正在更新中,歡迎關注博主B站視訊)
前言
隨著計算機效能的發展,人機互動越來越頻繁。在工程應用方面,計算機通過對手勢的分析理解,可以進一步開發出相應的遠端操控系統,在疫情當下,可以更好的實現零接觸操作。同時通過手勢也可以進一步瞭解人的表情與情感,例如在警匪影片中,通過手勢的微小變化,對罪犯的闡述進行分析判斷,但這只是更深層次的系統設想。
手勢識別是個計劃已久的專案,通過手勢可以傳達很多資訊,從而實現很多好玩的事情,比如石頭剪刀布、切水果等遊戲。網上也有一些相關手勢識別的部落格或程式碼,不過很少有人對其進行詳細介紹,為了便於演示和交付使用者使用,我們將其開發成一個可以展示的完整軟體,方便選擇檔案和實時檢測。對此這裡給出博主設計的介面,關注過的朋友可能清楚我的簡約風,功能上也滿足了圖片、視訊和攝像頭的識別檢測,希望大家可以喜歡,初始介面如下圖:
檢測手勢時的介面截圖(點選圖片可放大)如下圖,可識別畫面中存在的多個手勢,也可開啟攝像頭或視訊檢測:
詳細的功能演示效果參見博主的B站視訊或下一節的動圖演示,覺得不錯的朋友敬請點贊、關注加收藏!系統UI介面的設計工作量較大,介面美化更需仔細雕琢,大家有任何建議或意見和可在下方評論交流。
1. 效果演示
手勢識別系統藉助深度學習演算法,開發有選擇圖片識別、視訊識別以及攝像畫面識別,結果的視覺化顯示功能,這裡給出幾張動圖供大家參考。
(一)選擇手勢圖片識別
可點選手勢識別系統中的圖片選擇按鈕,即可彈出圖片檔案選擇視窗,選中檔案後自動顯示識別結果;對於多個手勢,可通過下拉框選擇單獨顯示結果。本功能的介面展示如下圖所示:
(二)手勢視訊識別效果展示
對於視訊檔案同樣可以通過對應的視訊選擇按鈕,選中可用的視訊後自動利用演算法對視訊幀進行逐個識別,此時對演算法和裝置的實時性要求較高,但系統同樣能夠保持高的檢測速度。效果如下圖所示:
(三)攝像頭檢測效果展示
在真實場景中,我們往往利用裝置攝像頭獲取實時畫面,同時需要對畫面中的手勢進行識別,因此本文考慮到此項功能。如下圖所示,點選攝像頭按鈕後系統進入準備狀態,系統顯示實時畫面並開始檢測畫面中的手勢,識別結果展示如下圖:
2. 手勢識別原理介紹
2.1 研究現狀
目前現階段手勢識別的研究方向主要分為:基於穿戴裝置的手勢識別和基於視覺方法的手勢識別。基於穿戴裝置的手勢識別主要是通過在手上佩戴含有大量感測器的手套獲取大量的感測器資料,並對其資料進行分析。該種方法相對來雖然精度比較高,但是由於感測器成本較高很難在日常生活中得到實際應用,同時感測器手套會造成使用者的不便,影響進一步的情感分析,所以此方法更多的還是應用在一些特有的相對專業的儀器中。而本部落格更多的還是將關注點放在基於視覺方法的手勢研究中,在此特地以Mediapipe的框架為例,方便讀者更好的復現和了解相關領域。
基於視覺方法的手勢識別主要分為靜態手勢識別和動態手勢識別兩種。從文字瞭解上來說,動態手勢識別肯定會難於靜態手勢識別,但靜態手勢是動態手勢的一種特殊狀態,我們可以通過對一幀一幀的靜態手勢識別來檢測連續的動態視訊,進一步分析前後幀的關係來完善手勢系統。在本部落格中向大家推薦一篇比較基礎的中文期刊幫助大家簡單瞭解:
由解迎剛老師發表在計算機工程與應用上的《基於視覺的動態手勢識別研究綜述》,論文從感測開始介紹,然後在介紹了相關檢測演算法,將手勢識別分為了手勢檢測與分割、手勢追蹤、特徵提取、手勢分類與識別四個方面來介紹[1]。還有許多手勢識別的英文綜述可供大家參考,感興趣的可以瞭解一下。
2.2 Mediapipe深度學習框架
Mediapipe深度學習框架的官網是https://google.github.io/mediapipe/,大家可以直接通過本部落格訪問其網站。MediaPipe 是一款由 Google Research 開發並開源的多媒體機器學習模型應用框架。首先在官網首頁我們就可以直接看到MediaPipe能幹的有:
從左到右分別是人臉檢測,人臉關鍵點檢測,瞳孔檢測、手勢識別、身體姿態識別、全身的動作識別,更難的像髮絲檢測、簡單的目標檢測、追蹤和實時物體控制,3D物體檢測和標誌標牌檢測。然後MediaPipe支援的語言有如下:
2.3 手勢識別原理
在官方的網址上可以知道,MediaPipe的手勢識別演算法主要分為兩個部分,第一個部分是手掌識別模型,第二個是手部關鍵點標記模型。
MediaPipe在訓練手掌模型中,使用的是單階段目標檢測演算法SSD。同時利用三個操作對其進行了優化:1.NMS;2.encoder-decoder feature extractor;3.focal loss。NMS主要是用於抑制演算法識別到了單個物件的多個重複框,得到置信度最高的檢測框;encoder-decoder feature extractor主要用於更大的場景上下文感知,甚至是小物件(類似於retanet方法);focal loss是有RetinaNet上提取的,主要解決的是正負樣本不平衡的問題,這對於開放環境下的目標檢測是一個可以漲點的技巧。利用上述技術,MediaPie在手掌檢測中達到了95.7%的平均精度。在沒有使用2和3的情況下,得到的基線僅為86.22%。增長了9.48個點,說明模型是可以準確識別出手掌的。而至於為啥做手掌檢測器而不是手部,主要是作者認為訓練手部檢測器比較複雜,可學習到的特徵不明顯,所以做的是手掌檢測器。
MediaPipe通過對整個影像進行手掌檢測後,使用手部關鍵點模型通過迴歸對被檢測手部區域內的21個三維手部關節座標進行精確的關鍵點定位,即直接進行座標預測。標記點如圖所示:
在此我們就簡單的介紹了MediaPipe,接下來我們將通過程式碼來使用python呼叫MediaPipe實現手勢識別。主要從三個方面來寫這個指令碼:第一個如果識別靜態照片的手勢;第二個如何識別視訊流中的手勢;第三個如果實時識別攝像頭影像。
2.4 程式碼實現演示
實現程式碼前首先進行依賴安裝,這裡需要安裝python-opencv和MediaPipe,可使用以下命令:
pip install opencv-python
pip install mediapipe
首先是引入庫檔案,這裡主要用到的是一個mediapipe的sdk包和opencv的包。其他的numpy、time、math都是python和深度學習的基礎包,不多介紹。
import mediapipe as mp
import cv2
import numpy as np
import time
import math
接下來我們將通過mediapipe的sdk來引入我們需要的手勢識別的API,其程式碼如下:
mp_drawing = mp.solutions.drawing_utils #點和線的樣式
mp_drawing_styles = mp.solutions.drawing_styles #點和線的風格
mp_hands = mp.solutions.hands # 手勢識別的API
然後我們將預設一張手勢識別的圖片,可以填入相對路徑和絕對路徑。並預設一組數字,用於後期的手勢分析。
IMAGE_List = ['jpgDet.jpg'] # 圖片列表
gesture = [0,1,2,3,4,5] # 預設數字
以下就是手勢識別的主程式,也就是主要核心內容。通過mediapipe的api我們可以分析出檢測到的是左手還是右手,並獲取相應手的21個關鍵點座標。
with mp_hands.Hands(
static_image_mode = True, # False表示為影像檢測模式
max_num_hands = 2, # 最大可檢測到兩隻手掌
model_complexity = 0, # 可設為0或者1,主要跟模型複雜度有關
min_detection_confidence = 0.5, # 最大檢測閾值
) as hands:
for idx ,file in enumerate(IMAGE_List):
image = cv2.flip(cv2.imread(file),1) # 讀取圖片
image = cv2.cvtColor(image,cv2.COLOR_BGR2RGB) # 將其標為RGB格式
t0 = time.time()
results =hands.process(image) # 使用API處理影像影像
'''
results.multi_handedness
包括label和score,label是字串"Left"或"Right",score是置信度
results.multi_hand_landmarks
results.multi_hand_landmrks:被檢測/跟蹤的手的集合
其中每隻手被表示為21個手部地標的列表,每個地標由x、y和z組成。
x和y分別由影像的寬度和高度歸一化為[0.0,1.0]。Z表示地標深度
以手腕深度為原點,值越小,地標離相機越近。
z的大小與x的大小大致相同。
'''
t1 = time.time()
fps = 1 / (t1 - t0) # 實時幀率
# print('++++++++++++++fps',fps)
image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) # 將影像變回BGR形式
dict_handnumber = {} # 建立一個字典。儲存左右手的手勢情況
if results.multi_handedness: # 判斷是否檢測到手掌
if len(results.multi_handedness) == 2: # 如果檢測到兩隻手
for i in range(len(results.multi_handedness)):
label = results.multi_handedness[i].classification[0].label # 獲得Label判斷是哪幾手
index = results.multi_handedness[i].classification[0].index # 獲取左右手的索引號
hand_landmarks = results.multi_hand_landmarks[index] # 根據相應的索引號獲取xyz值
mp_drawing.draw_landmarks(
image,
hand_landmarks,
mp_hands.HAND_CONNECTIONS, #用於指定地標如何在圖中連線。
mp_drawing_styles.get_default_hand_landmarks_style(), # 如果設定為None.則不會在圖上標出關鍵點
mp_drawing_styles.get_default_hand_connections_style()) # 關鍵點的連線風格
gesresult = ges(hand_landmarks) # 傳入21個關鍵點集合,返回數字
dict_handnumber[label] = gesresult # 與對應的手進行儲存為字典
else: # 如果僅檢測到一隻手
label = results.multi_handedness[0].classification[0].label # 獲得Label判斷是哪幾手
hand_landmarks = results.multi_hand_landmarks[0]
mp_drawing.draw_landmarks(
image,
hand_landmarks,
mp_hands.HAND_CONNECTIONS, #用於指定地標如何在圖中連線。
mp_drawing_styles.get_default_hand_landmarks_style(), # 如果設定為None.則不會在圖上標出關鍵點
mp_drawing_styles.get_default_hand_connections_style()) # 關鍵點的連線風格
gesresult = ges(hand_landmarks) # 傳入21個關鍵點集合,返回數字
dict_handnumber[label] = gesresult # 與對應的手進行儲存為字典
if len(dict_handnumber) == 2: # 如果有兩隻手,則進入
# print(dict_handnumber)
leftnumber = dict_handnumber['Right']
rightnumber = dict_handnumber['Left']
'''
顯示實時幀率,右手值,左手值,相加值
'''
s = 'FPS:{0}\nRighthand Value:{1}\nLefthand Value:{2}\nAdd is:{3}'.format(int(fps),rightnumber,leftnumber,str(leftnumber+rightnumber)) # 影像上的文字內容
elif len(dict_handnumber) == 1 : # 如果僅有一隻手則進入
labelvalue = list(dict_handnumber.keys())[0] # 判斷檢測到的是哪隻手
if labelvalue == 'Right': # 左手,不知為何,模型總是將左右手搞反,則引入人工程式碼糾正
number = list(dict_handnumber.values())[0]
s = 'FPS:{0}\nRighthand Value:{1}\nLefthand Value:0\nAdd is:{2}'.format(int(fps),number,number)
else: # 右手
number = list(dict_handnumber.values())[0]
s = 'FPS:{0}\nLefthand Value:{1}\nRighthand Value:0\nAdd is:{2}'.format(int(fps),number,number)
else:# 如果沒有檢測到則只顯示幀率
s = 'FPS:{0}\n'.format(int(fps))
y0,dy = 50,25 # 文字放置初始座標
# image = cv2.flip(image,1) # 反轉影像
for i ,txt in enumerate(s.split('\n')): # 根據\n來豎向排列文字
y = y0 + i*dy
cv2.putText(image,txt,(50,y),cv2.FONT_HERSHEY_SIMPLEX,1,(255,0,0),3)
cv2.imshow('MediaPipe Gesture Recognition',image) # 顯示影像
cv2.imwrite('save/{0}.jpg'.format(idx),image)
if cv2.waitKey(5) & 0xFF == 27:
break
執行以上程式碼,通過讀取一張手勢圖片,呼叫演算法對畫面中的手勢進行識別,其中手指數目、畫面幀率、手勢結果等資訊標記在影像中,如下圖所示:
視訊識別在程式碼結構上與圖片識別是一致的,主要的原理就是通過cv2.VideoCapture()函式將視訊讀取成每一幀,並對每一幀影像進行檢測,返回結果。以下我直接貼出原始碼,相關注釋與圖片識別相同。定義好cv2.VideoCapture函式,傳入視訊路徑,並預設好手勢列表。
cap = cv2.VideoCapture('GesDet.mp4') # 視訊路徑
gesture = [0,1,2,3,4,5] # 預設數字
使用while迴圈去遍歷每一幀影像,並使用imshow來展示檢測結果。注意這裡的static_image_mode引數要設定為False。
with mp_hands.Hands(
static_image_mode = False, # False表示為視訊流檢測
max_num_hands = 2, # 最大可檢測到兩隻手掌
model_complexity = 0, # 可設為0或者1,主要跟模型複雜度有關
min_detection_confidence = 0.5, # 最大檢測閾值
min_tracking_confidence = 0.5 # 最小追蹤閾值
) as hands:
while True: # 判斷相機是否開啟
success ,image = cap.read() # 返回兩個值:一個表示狀態,一個是影像矩陣
if image is None:
break
image.flags.writeable = False # 將影像矩陣修改為僅讀模式
image = cv2.cvtColor(image,cv2.COLOR_BGR2RGB)
t0 = time.time()
results =hands.process(image) # 使用API處理影像影像
'''
results.multi_handedness
包括label和score,label是字串"Left"或"Right",score是置信度
results.multi_hand_landmarks
results.multi_hand_landmrks:被檢測/跟蹤的手的集合
其中每隻手被表示為21個手部地標的列表,每個地標由x、y和z組成。
x和y分別由影像的寬度和高度歸一化為[0.0,1.0]。Z表示地標深度
以手腕深度為原點,值越小,地標離相機越近。
z的大小與x的大小大致相同。
'''
t1 = time.time()
fps = 1 / (t1 - t0) # 實時幀率
# print('++++++++++++++fps',fps)
image.flags.writeable = True # 將影像矩陣修改為讀寫模式
image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) # 將影像變回BGR形式
dict_handnumber = {} # 建立一個字典。儲存左右手的手勢情況
if results.multi_handedness: # 判斷是否檢測到手掌
if len(results.multi_handedness) == 2: # 如果檢測到兩隻手
for i in range(len(results.multi_handedness)):
label = results.multi_handedness[i].classification[0].label # 獲得Label判斷是哪幾手
index = results.multi_handedness[i].classification[0].index # 獲取左右手的索引號
hand_landmarks = results.multi_hand_landmarks[index] # 根據相應的索引號獲取xyz值
mp_drawing.draw_landmarks(
image,
hand_landmarks,
mp_hands.HAND_CONNECTIONS, #用於指定地標如何在圖中連線。
mp_drawing_styles.get_default_hand_landmarks_style(), # 如果設定為None.則不會在圖上標出關鍵點
mp_drawing_styles.get_default_hand_connections_style()) # 關鍵點的連線風格
gesresult = ges(hand_landmarks) # 傳入21個關鍵點集合,返回數字
dict_handnumber[label] = gesresult # 與對應的手進行儲存為字典
else: # 如果僅檢測到一隻手
label = results.multi_handedness[0].classification[0].label # 獲得Label判斷是哪幾手
hand_landmarks = results.multi_hand_landmarks[0]
mp_drawing.draw_landmarks(
image,
hand_landmarks,
mp_hands.HAND_CONNECTIONS, #用於指定地標如何在圖中連線。
mp_drawing_styles.get_default_hand_landmarks_style(), # 如果設定為None.則不會在圖上標出關鍵點
mp_drawing_styles.get_default_hand_connections_style()) # 關鍵點的連線風格
gesresult = ges(hand_landmarks) # 傳入21個關鍵點集合,返回數字
dict_handnumber[label] = gesresult # 與對應的手進行儲存為字典
if len(dict_handnumber) == 2: # 如果有兩隻手,則進入
# print(dict_handnumber)
leftnumber = dict_handnumber['Right']
rightnumber = dict_handnumber['Left']
'''
顯示實時幀率,右手值,左手值,相加值
'''
s = 'FPS:{0}\nRighthand Value:{1}\nLefthand Value:{2}\nAdd is:{3}'.format(int(fps),rightnumber,leftnumber,str(leftnumber+rightnumber)) # 影像上的文字內容
elif len(dict_handnumber) == 1 : # 如果僅有一隻手則進入
labelvalue = list(dict_handnumber.keys())[0] # 判斷檢測到的是哪隻手
if labelvalue == 'Left': # 左手,不知為何,模型總是將左右手搞反,則引入人工程式碼糾正
number = list(dict_handnumber.values())[0]
s = 'FPS:{0}\nRighthand Value:{1}\nLefthand Value:0\nAdd is:{2}'.format(int(fps),number,number)
else: # 右手
number = list(dict_handnumber.values())[0]
s = 'FPS:{0}\nLefthand Value:{1}\nRighthand Value:0\nAdd is:{2}'.format(int(fps),number,number)
else:# 如果沒有檢測到則只顯示幀率
s = 'FPS:{0}\n'.format(int(fps))
y0,dy = 50,25 # 文字放置初始座標
image = cv2.flip(image,1) # 反轉影像
for i ,txt in enumerate(s.split('\n')): # 根據\n來豎向排列文字
y = y0 + i*dy
cv2.putText(image,txt,(50,y),cv2.FONT_HERSHEY_SIMPLEX,1,(255,0,0),3)
cv2.imshow('MediaPipe Gesture Recognition',image) # 顯示影像
# cv2.imwrite('save/{0}.jpg'.format(t1),image)
if cv2.waitKey(5) & 0xFF == 27:
break
cap.release()
相機實時檢測相比於前面兩種,主要是cv2.VideoCapture()中,我們傳入的不在是檔案路徑,而是一個一個的數字,以電腦自帶攝像頭為例,我們傳入引數0。如果有多個相機也可傳入相應的相機代號。
cap = cv2.VideoCapture(0) # 0代表電腦自帶攝像頭
讀取視訊或攝像頭畫面進行識別的過程,與前面讀取圖片檔案相似,通過迴圈讀取畫面幀逐個識別手勢,並標記在畫面中,執行結果如下圖所示:
在使用了MediaPipe的手勢識別後,我發現難得不是對於手勢關鍵點的檢測,MediaPipe的手勢識別,在CPU上基本可以達到實時的標準,更難的應該是對手勢的判斷,對關鍵點的理解,這裡我也觀摩了很多其他博主的文章,對於不同方法得到的準確度也不一樣,這值得我們更多的去思考。對於手勢更準的判斷,我們可以將其應用在很多的工程例項中。
開啟QtDesigner軟體,拖動以下控制元件至主視窗中,調整介面樣式和控制元件放置,性別識別系統的介面設計如下圖所示:
控制元件介面部分設計好,接下來利用PyUIC工具將.ui檔案轉化為.py程式碼檔案,通過呼叫介面部分的程式碼同時加入對應的邏輯處理程式碼。博主對其中的UI功能進行了詳細測試,最終開發出一版流暢得到清新介面,就是博文演示部分的展示,完整的UI介面、測試圖片視訊、程式碼檔案,以及Python離線依賴包(方便安裝執行,也可自行配置環境),均已打包上傳,感興趣的朋友可以通過下載連結獲取。
下載連結
若您想獲得博文中涉及的實現完整全部程式檔案(包括測試圖片、視訊,py, UI檔案等,如下圖),這裡已打包上傳至博主的麵包多平臺和CSDN下載資源。本資源已上傳至麵包多網站和CSDN下載資源頻道,可以點選以下連結獲取,已將所有涉及的檔案同時打包到裡面,點選即可執行,完整檔案截圖如下:
在資料夾下的資源顯示如下,其中包含了Python的離線依賴包,讀者可在正確安裝Anaconda和Pycharm軟體後,點選bat檔案進行安裝,詳細演示也可見本人B站視訊。
注意:本資源已經過除錯通過,下載後可通過Pycharm執行;執行介面的主程式為runMain.py,測試圖片可執行JPGDet.py,測試視訊檔案可執行VideoDet.py,測試攝像頭識別可執行Cameradet.py,為確保程式順利執行,請配置Python依賴包的版本如下:➷➷➷
Python版本:3.8,請勿使用其他版本,詳見requirements.txt檔案;
absl-py==1.0.0
attrs==21.4.0
certifi==2021.10.8
cvzone==1.5.6
cycler==0.11.0
fonttools==4.29.1
kiwisolver==1.3.2
matplotlib==3.5.1
mediapipe==0.8.9.1
numpy==1.22.3
opencv-contrib-python==4.5.5.62
opencv-python==4.5.5.64
packaging==21.3
Pillow==9.0.1
protobuf==3.19.4
pyparsing==3.0.7
PyQt5==5.15.6
PyQt5-Qt5==5.15.2
PyQt5-sip==12.9.1
python-dateutil==2.8.2
six==1.16.0
wincertstore==0.2
完整資源下載連結1:https://mianbaoduo.com/o/bread/mbd-YpmXlZ9s
完整資源下載連結2:博主在CSDN下載頻道的完整資源下載頁
結束語
由於博主能力有限,博文中提及的方法即使經過試驗,也難免會有疏漏之處。希望您能熱心指出其中的錯誤,以便下次修改時能以一個更完美更嚴謹的樣子,呈現在大家面前。同時如果有更好的實現方法也請您不吝賜教。
參考資料:
- https://blog.csdn.net/weixin_45930948/article/details/115444916
- https://cloud.tencent.com/developer/article/1492209
- 王如斌,竇全禮,張淇,周誠.基於MediaPipe的手勢識別用於挖掘機遙操作控制[J/OL].土木建築工程資訊科技:1-8[2022-03-31].