一個簡單的完整人臉識別系統

何問天涯路遠發表於2022-12-14

一個簡單的完整人臉識別系統

from __future__ import print_function # 便於測試新版本函式
from time import time # 從time模組匯入time,因為有些步驟需要計時
import logging # 列印出一些程式進展資訊
import matplotlib.pyplot as plt # 繪圖的包,即最後將我們預測出來的人臉列印出來
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_lfw_people
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.decomposition import PCA
import numpy as np
from sklearn.svm import SVC
from sklearn import svm

# 列印輸出日誌資訊
logging.basicConfig(level=logging.INFO, format='%(asctime)s%(message)s')

# 使使用者外臉部資料集lfw(Labeled Faces in the Wild)
# minfaces_per_person:int,可選預設無,提取的資料集僅保留包含min_faces_per_person不同圖片的人的照片
# resize調整每張人臉圖片的比例,預設是0.5 ,min_faces_per_person=70
lfw_people = fetch_lfw_people(min_faces_per_person=50, resize=0.4)
# 返回資料集有多少個例項,h是多少,w是多少
n_samples, h, w = lfw_people.images.shape
print('h=',h)
print('w=',w)
X = lfw_people.data # X矩陣用來裝特徵向量,得到資料集的所有例項,每一行是一個例項,每一列是個特徵值
# X矩陣呼叫shape返回矩陣的行數和列數,
n_features = X.shape[1] # X.shape[1]返回矩陣的列數,對應的特徵向量的維度或者特徵點多少

# 獲取特徵結果集,提取每個例項對應的每個人臉
Y = lfw_people.target # y為classlabel目標分類標記,即不同人的身份
target_names = lfw_people.target_names # 資料集中有多少個人,以人名組成列表返回
n_classes = target_names.shape[0] # shape[0]就是多少行,多少個人,多少類

print("Total dataset size:") # 資料集中資訊
print("n_samples:%d" % n_samples) # 資料個數1288
print("n_features:%d" % n_features) # 特徵個數,維度1850
print("n_classes:%d" % n_classes) # 結果集類別個數,即多少個人

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20) # test_size=0.20表示隨機抽取20%的測試集 五折交叉檢驗

# 自己實現的PCA類及方法
class GsnPCA:
def __init__(self, n_components):
self.n_components = n_components # 主成分的個數n
self.components_ = None # 具體主成分
self.dimensionReductionMatrix=None

def fit(self, X):

def demean(X): # 均值歸零
return X - np.mean(X, axis=0)

def Cov(X):
return np.cov(X.transpose())

print("step1:對樣本去均值,進行中心化")
X_demean=demean(X)
print("step2:求特徵協方差矩陣")
sigma=Cov(X_demean)
print("step3:求協方差矩陣的 特徵值 和 特徵向量")
eigenValues, eigenVectors = np.linalg.eig(sigma)
print("step4:將特徵值從大到小排序,選擇前n_components個")
eigenFeatureList = []
for i in range(len(eigenValues)):
eigenFeatureList.append((eigenValues[i], eigenVectors[i]))
# key=lambda tuple: tuple[0]表示按第1個元素(特徵值)為排序標準 reverse=True表示降序排序
eigenFeatureList = sorted(eigenFeatureList, key=lambda tuple: tuple[0], reverse=True)
print("step5:合併前n_components個特徵向量得到降維變換矩陣")
self.dimensionReductionMatrix = np.array([eigenFeatureList[i][1] for i in range(n_components)])
print(self.dimensionReductionMatrix)

return self

# 將X資料集對映到各個主成分分量中
def transform(self, X):
# print(self.components_.shape[1])
# assert X.shape[1] == self.components_.shape[1]
# return X.dot(self.components_.T)
lower_X = np.matmul(X, self.dimensionReductionMatrix.transpose()).astype(np.float) # 避免出現複數
return lower_X

def inverse_transform(self, X):
return X.dot(self.components_)


# 採用PCA降維,原始資料的特徵向量維度非常高,意味著訓練模型的複雜度非常高
# 儲存的元件數目,也即保留下來的特徵個數n
n_components = 150

print("Expecting the top %d EigenFaces from %faces" % (n_components, X_train.shape[0]))

# 降維
pca = PCA(n_components=n_components, whiten=True).fit(X_train)

t0 = time()# 初始時間
gsnpca = GsnPCA(n_components)
gsnpca.fit(X_train)
print("gsnpca done in %0.3fs" % (time() - t0))

# 從人臉中提取特徵點,對於人臉的一張照片提取的特徵值名為eigenFaces
eigenFaces = pca.components_.reshape((n_components, h, w))

print("projecting the input data on the EigenFaces orthonormal basis")
# t0 = time()
# # 把訓練集特徵向量轉化為更低維的矩陣
# X_train_pca = pca.transform(X_train)
# print(X_train_pca)
X_train_pca = gsnpca.transform(X_train)
print(X_train_pca)
# 把測試集的特徵向量轉化為更低維的矩陣
# X_test_pca = pca.transform(X_test)
X_test_pca = gsnpca.transform(X_test)
print("done in %0.3fs" % (time() - t0))

# 後續

# 訓練一個支援向量機的分類model——構造分類器
print("Fitting the classifier to the training set")
t0 = time()

# c是一個對錯誤部分的懲罰
# gamma的引數對不同核函式有不同的表現,gamma表示使用多少比例的特徵點
# 使用不同的c和不同值的gamma,進行多個量的嘗試,然後進行搜尋,選出準確率最高模型
param_grid = {
'C': [1e3, 5e3, 1e4, 5e4, 1e5],
'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1]
}
# 呼叫SVM進行分類搜尋哪對組合產生最好的歸類精確度
# kernel:rbf高斯徑向基核函式 class_weight權重
# 把所有我們所列引數的組合都放在SVC裡面進行計算,最後看出哪一組函式的表現度最好
clf = GridSearchCV(svm.SVC(kernel='rbf', class_weight='balanced'), param_grid=param_grid)
clf = clf.fit(X_train_pca, Y_train)
print("fit done in %0.3fs" % (time() - t0))
print("Best estimator found by grid search:")
print(clf.best_estimator_)

##################進行評估準確率計算######################
print("Predicting people's names on the test set")
t0 = time()
# 預測新的分類
Y_pred = clf.predict(X_test_pca)
print("done in %0.3fs" % (time() - t0))
# 透過classification_report方法進行檢視,可以得到預測結果中哪些是正確
print(classification_report(Y_test, Y_pred, target_names=target_names))
# confusion_matrix是建一個n*n的方格,橫行和縱行分別表示真實的每一組測試的標記和測試集標記的差別
# 混淆矩陣對角線表示的是正確的值,對角線數字越多表示準確率越高
print(confusion_matrix(Y_test, Y_pred, labels=range(n_classes)))


# 將測試標記過進行展示,即先弄一個通用的圖片視覺化函式:
def plot_gallery(images, titles, h, w, n_row=3, n_col=4):
"""Helper function to plot a gallery of portraits"""
# 建立圖作為背景
# 自定義畫布大小
plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))
# 位置調整
plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)
for i in range(n_row * n_col):
# 設定畫布劃分以及影像在畫布上輸出的位置
plt.subplot(n_row, n_col, i + 1)
# 在軸上顯示圖片
plt.imshow(images[i].reshape((h, w)), cmap=plt.cm.gray)
# 整個畫板的標題
plt.title(titles[i], size=12)
# 獲取或設定x、y軸的當前刻度位置和標籤
plt.xticks(())
plt.yticks(())


# 預測函式歸類標籤和實際歸類標籤列印
# 返回預測人臉姓和測試人臉姓的對比title
def title(y_pred, y_test, target_names, i):
# rsplit(' ',1)從右邊開始以右邊第一個空格為界,分成兩個字元
# 組成一個list
# 此處代表把'姓'和'名'分開,然後把後面的姓提出來
# 末尾加[-1]代表引用分割後的列表最後一個元素
pred_name = target_names[y_pred[i]].rsplit(' ', 1)[-1]
true_name = target_names[y_test[i]].rsplit(' ', 1)[-1]
return 'predicted:%s\ntrue: %s' % (pred_name, true_name)


# 預測出的人名
prediction_titles = [title(Y_pred, Y_test, target_names, i) for i in range(Y_pred.shape[0])]
# 測試集的特徵向量矩陣和要預測的人名列印
plot_gallery(X_test, prediction_titles, h, w) # 呼叫plot_gallery函式列印出實際是誰,預測的誰
# 列印原圖和預測的資訊
eigenFaces_titles = ["EigenFace %d" % i for i in range(eigenFaces.shape[0])]
plot_gallery(eigenFaces, eigenFaces_titles, h, w) # 以及提取過特徵的臉

plt.show()

相關文章