序言
“幾分鐘就可以建立一個深度學習模型?訓練就要花幾個小時好嗎!我甚至沒有一臺足夠好的機器。”我聽過無數次有抱負的資料科學家這樣說,他們害怕在自己的機器上構建深度學習模型。
其實,你不必在谷歌或其他大型科技公司工作,就可以訓練深度學習資料集。你完全可以用幾分鐘的時間從頭搭建起你自己的神經網路,而不需要租谷歌的伺服器。Fast.ai的學生花了18分鐘設計出了用於ImageNet資料集的一個模型,接下來我將在本文中展示類似的方法。
深度學習是一個廣泛的領域,所以我們會縮小我們的關注點在影象分類問題上。而且,我們將使用一個非常簡單的深度學習架構來達到一個很好的準確率。
你可以將本文中的Python程式碼作為構建影象分類模型的基礎,一旦你對這些概念有了很好的理解,可以繼續程式設計,參加比賽、登上排行榜。
如果你剛開始深入學習,並且對計算機視覺領域著迷(誰不是呢?!)一定要看一看Computer Vision using Deep Learning的課程,它對這個酷炫的領域進行了全面的介紹,將為你未來進入這個巨大的就業市場奠定基礎。
課程連結:
https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+CVDL101+CVDL101_T1/ about?utm_source=imageclassarticle&utm_ medium=blog
目錄
一、什麼是影象分類以及它的應用案例
二、設定影象資料結構
三、分解模型建立過程
四、設定問題定義並認識資料
五、建立影象分類模型的步驟
六、開始其他挑戰
一、什麼是影象分類以及它的應用案例
觀察以下圖片:
你應該可以馬上就認出它——是一倆豪華車。退一步來分析一下你是如何得到這個結論的——你被展示了一張圖片,然後你將它劃分為“車”這個類別(在這個例子中)。簡單來說,這個過程就是影象分類。
很多時候,影象會有許多個類別。手動檢查並分類影象是一個非常繁瑣的過程。尤其當問題變為對10000張甚至1000000張圖片的時候,這個任務幾乎不可能完成。所以如果我們可以將這個過程自動化的實現並快速的標記影象類別,這該有多大的用處啊。
自動駕駛汽車是一個影象分類在現實世界應用的很好的例子。為了實現自動駕駛,我們可以建立一個影象分類模型來識別道路上的各種物體,如車輛、人、移動物體等。我們將在接下來的部分中看到更多的應用,甚至在我們的身邊就有許多的應用。
既然我們已經掌握了主題,那麼讓我們來深入研究一下如何構建影象分類模型,它的先決條件是什麼,以及如何在Python中實現它。
二、設定影象資料結構
我們的資料集需要特殊的結構來解決影象分類問題。我們將在幾個部分中看到這一點,但在往下走之前,請記住這些建議。
你應該建立兩個資料夾,一個放訓練集,另一個放測試集。訓練集的資料夾裡放一個csv檔案和一個影象資料夾:
csv檔案儲存所有訓練圖片的圖片名和它們對應的真實標籤
影象資料夾儲存所有的訓練圖片
測試集資料夾中的csv檔案和訓練集資料夾中的csv檔案不同,測試集資料夾中的csv檔案只包含測試影象的圖片名,不包括它們的真實標籤。因為我們要通過訓練訓練集中的圖片來對測試集中的圖片進行預測。
如果你的資料集不是這樣的格式,你需要進行轉換,否則的話預測結果可能有錯誤。
三、分解模型搭建的過程
在我們研究Python程式碼之前,讓我們先理解影象分類模型通常是如何設計的。可以將過程分為4個部分。每個步驟需要一定時間來執行:
第一步:載入和預處理資料——30%時間
第二步:定義模型架構——10%時間
第三步:訓練模型——50%時間
第四步:評價模型表現——10%時間
接下來我會更詳細地解釋一下上面的每一個步驟。這一部分非常重要,因為並非所有模型都是在第一步構建的。你需要在每次迭代之後返回,對步驟進行微調,然後再次執行它。對基礎概念有一個紮實的理解,對於加速整個過程將有很大的幫助。
第一步:載入和預處理資料
就深度學習模型而言,資料非常關鍵。如果訓練集中有大量的影象,你的影象分類模型也會有更大的可能實現更好的分類效果。此外,根據所用的框架不同,資料的維度不同,效果也不一樣。
因此,對於關鍵的資料預處理這一步,我推薦大家瀏覽下面這篇文章,來對影象資料的預處理有一個更好的理解:
Basics of Image Processing in Python
https://www.analyticsvidhya.com/blog/2014/12/image-processing-python-basics/)
但我們還沒完全到資料預處理這一步,為了瞭解我們的資料在新的之前沒見過的資料集中的表現(在預測測試集之前),我們需要先從訓練集中劃分出一部分為驗證集。
簡而言之,我們在訓練集上訓練模型然後在驗證集上進行驗證。如果我們對在驗證集上的結果滿意,就可以用來預測測試集的資料。
所需時間:大約2-3分鐘。
第二步:建立模型框架
這是深度學習模型建立過程中的另一個重要的步驟。在這個過程中,需要思考這樣幾個問題:
需要多少個卷積層?
每一層的啟用函式是什麼?
每一層有多少隱藏單元?
還有其他一些問題。但這些基本上是模型的超引數,它們對預測結果起著重要作用。
如何確定這些超參的值?好問題!一個方法是根據現有的研究選擇這些值。另一個想法是不斷嘗試這些值,直到找到最好的,但這可能是一個非常耗時的過程。
所需時間:大約1分鐘定義這個框架。
第三步:訓練模型
對模型訓練,我們需要:
訓練影象和它們的真實標籤。
驗證集影象和其真實標籤。(我們只用驗證集的標籤進行模型評估,不用於訓練)
我們還需要定義迭代次數(epoch)。開始階段,我們訓練10次(你可以再更改)。
所需時間:大概5分鐘,來進行模型的結構的學習。
第四步:評估模型表現
最後,我們載入測試資料(影象)並完成預處理步驟。然後我們使用訓練模型預測這些影象的類別。
所需時間:1分鐘
四、設定問題定義並認識資料
我們將嘗試一個非常酷的挑戰來理解影象分類。我們需要建立一個模型,可以對給定的影象進行分類(襯衫、褲子、鞋子、襪子等)。這實際上是許多電子商務零售商面臨的一個問題,這使得它成為一個更有趣的計算機視覺問題。
這個挑戰被稱為“識別服裝”,是我們在資料黑客平臺上遇到的實踐問題之一。你必須註冊並從上面的連結下載資料集。
“識別服裝”比賽連結:
https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-apparels/)
資料黑客平臺:
https://datahack.analyticsvidhya.com/
一共有70000影象(28x28維),其中60000來自訓練集,10000來自測試集。訓練影象已經預先被打上了衣服類別的標籤,一共10個類別。測試集沒有標籤。這個比賽是對測試集的影象進行識別。
我們將在Google Colab搭建模型,因為它提供免費的GPU。
Google Colab:
https://colab.research.google.com/
五、建立影象分類模型的步驟
接下來是時候展示你的Python技巧啦,最終我們到了執行階段!
主要步驟如下:
設定Google Colab
匯入庫
匯入資料預處理資料(3分鐘)
設定驗證集
定義模型結構(1分鐘)
訓練模型(5分鐘)
預測(1分鐘)
下面詳細介紹以上步驟。
第1步:設定Google Colab
因為我們將從Google Drive link匯入資料,我們需要在Google Colab notebook上增加幾條程式碼。新建Python3 notebook,寫下下面的程式碼:
!pip install PyDrive
這一步是安裝PyDrive。下面匯入需要的庫:
import os from pydrive.auth import GoogleAuth from pydrive.drive import GoogleDrive from google.colab import auth from oauth2client.client import GoogleCredentials
下面建立drive變數訪問Google Drive:
auth.authenticate_user() gauth = GoogleAuth() gauth.credentials = GoogleCredentials.get_application_default() drive = GoogleDrive(gauth)
需要用Google Drive上傳檔案的ID來下載資料集:
download = drive.CreateFile({'id': '1BZOv422XJvxFUnGh-0xVeSvgFgqVY45q'})
把id的部分替換為你的資料夾的ID。接下來將下載資料夾並解壓。
download.GetContentFile('train_LbELtWX.zip') !unzip train_LbELtWX.zip
每次啟動notebook都需要執行以上程式碼。
第2步:匯入模型所需的庫。
import keras from keras.models import Sequential from keras.layers import Dense, Dropout, Flatten from keras.layers import Conv2D, MaxPooling2D from keras.utils import to_categorical from keras.preprocessing import image import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from keras.utils import to_categorical from tqdm import tqdm
第3步:接下來是資料匯入和資料預處理。
train = pd.read_csv('train.csv')
接下來,我們將讀入訓練集,儲存為list,最終轉換為numpy array。
# We have grayscale images, so while loading the images we will keep grayscale=True, if you have RGB images, you should set grayscale as False train_image = [] for i in tqdm(range(train.shape[0])): img = image.load_img('train/'+train['id'][i].astype('str')+'.png', target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 train_image.append(img) X = np.array(train_image)
這是一個多分類問題(10個類別),需要對標籤變數進行one-hot編碼。
y=train['label'].values y = to_categorical(y)
第4步:從訓練集中劃分驗證集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)
第5步:定義模型結構
我們將建立一個簡單的結構,有2個卷積層,一個隱藏層一個輸出層。
model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3),activation='relu',input_shape=(28,28,1))) model.add(Conv2D(64, (3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Dropout(0.25)) model.add(Flatten()) model.add(Dense(128, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(10, activation='softmax'))
接下來編譯模型。
model.compile(loss='categorical_crossentropy',optimizer='Adam',metrics=['accuracy'])
第6步:訓練模型
在這一步,我們將訓練訓練集的資料,在驗證集上進行驗證。
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))
第7步:預測!
我們將首先遵循處理訓練資料集時執行的步驟。載入測試影象並預測分類結果,用model.predict_classes()函式預測它們的類。
download = drive.CreateFile({'id': '1KuyWGFEpj7Fr2DgBsW8qsWvjqEzfoJBY'}) download.GetContentFile('test_ScVgIM0.zip') !unzip test_ScVgIM0.zip
首先匯入測試集:
test = pd.read_csv('test.csv')
接下來,讀於資料並儲存測試集:
test_image = [] for i in tqdm(range(test.shape[0])): img = image.load_img('test/'+test['id'][i].astype('str')+'.png', target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 test_image.append(img) test = np.array(test_image)
# making predictions prediction = model.predict_classes(test)
還需要新建一個提交資料夾,用來上傳DataHack平臺。
download = drive.CreateFile({'id': '1z4QXy7WravpSj-S4Cs9Fk8ZNaX-qh5HF'}) download.GetContentFile('sample_submission_I5njJSF.csv')
# creating submission file sample = pd.read_csv('sample_submission_I5njJSF.csv') sample['label'] = prediction sample.to_csv('sample_cnn.csv', header=True, index=False)
下載sample_cnn.csv檔案並上傳到比賽的頁面,生成你的排名。這提供了一個幫助你開始解決影象分類問題的基礎方案。
你可以嘗試調整超引數和正則化來提高模型效果。也可以通過閱讀下面這篇文章來理解調參的細節。
A Comprehensive Tutorial to learn Convolutional Neural Networks from Scratch
https://www.analyticsvidhya.com/blog/2018/12/guide-convolutional-neural-network-cnn/
六、開啟一個新的挑戰
讓我們嘗試在其他的資料集進行測試。這部分,我們將解決Identify the Digits上的這個問題。
Identify the Digits比賽連結:
https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
在你往下看之前,請嘗試自己來解決這個挑戰。你已經收穫瞭解決問題的工具,只需要使用它們。當你遇到困難的時候可以再回來檢查你的過程和結果。
在這個挑戰中,我們需要識別給定影象中的數字。一共有70000張圖片,49000張訓練影象有標籤,剩下的21000張為測試圖片無標籤。
準備好了嗎?好!開啟新的Python3 notebook,執行下面的程式碼:
# Setting up Colab !pip install PyDrive
import os from pydrive.auth import GoogleAuth from pydrive.drive import GoogleDrive from google.colab import auth from oauth2client.client import GoogleCredentials
auth.authenticate_user() gauth = GoogleAuth() gauth.credentials = GoogleCredentials.get_application_default() drive = GoogleDrive(gauth)
# Replace the id and filename in the below codes download = drive.CreateFile({'id': '1ZCzHDAfwgLdQke_GNnHp_4OheRRtNPs-'}) download.GetContentFile('Train_UQcUa52.zip') !unzip Train_UQcUa52.zip
# Importing libraries import keras from keras.models import Sequential from keras.layers import Dense, Dropout, Flatten from keras.layers import Conv2D, MaxPooling2D from keras.utils import to_categorical from keras.preprocessing import image import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from keras.utils import to_categorical from tqdm import tqdm
train = pd.read_csv('train.csv')
# Reading the training images train_image = [] for i in tqdm(range(train.shape[0])): img = image.load_img('Images/train/'+train['filename'][i], target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 train_image.append(img) X = np.array(train_image)
# Creating the target variable y=train['label'].values y = to_categorical(y)
# Creating validation set X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)
# Define the model structure model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3),activation='relu',input_shape=(28,28,1))) model.add(Conv2D(64, (3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Dropout(0.25)) model.add(Flatten()) model.add(Dense(128, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(10, activation='softmax'))
# Compile the model model.compile(loss='categorical_crossentropy',optimizer='Adam',metrics=['accuracy'])
# Training the model model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))
download = drive.CreateFile({'id': '1zHJR6yiI06ao-UAh_LXZQRIOzBO3sNDq'}) download.GetContentFile('Test_fCbTej3.csv')
test_file = pd.read_csv('Test_fCbTej3.csv')
test_image = [] for i in tqdm(range(test_file.shape[0])): img = image.load_img('Images/test/'+test_file['filename'][i], target_size=(28,28,1), grayscale=True) img = image.img_to_array(img) img = img/255 test_image.append(img) test = np.array(test_image)
prediction = model.predict_classes(test)
download = drive.CreateFile({'id': '1nRz5bD7ReGrdinpdFcHVIEyjqtPGPyHx'}) download.GetContentFile('Sample_Submission_lxuyBuB.csv')
sample = pd.read_csv('Sample_Submission_lxuyBuB.csv') sample['filename'] = test_file['filename'] sample['label'] = prediction sample.to_csv('sample.csv', header=True, index=False)
在練習題頁面上提交這個檔案,你會得到一個相當不錯的準確率。這是一個好的開端,但總有改進的餘地。繼續肝,看看你是否可以改進我們的基本模型。
尾聲
誰說深度學習模型需要數小時或數天的訓練。我的目的是展示你可以在雙倍快速的時間內想出一個相當不錯的深度學習模式。你應該接受類似的挑戰,並嘗試從你的終端編碼它們。什麼都比不上通過實踐來學習!
頂尖的資料科學家和分析師甚至在黑客比賽開始之前就已經準備好了這些程式碼。他們使用這些程式碼在深入詳細分析之前提前提交。先給出基準解決方案,然後使用不同的技術改進模型。
你覺得這篇文章有用嗎?請在下面的評論部分分享你的反饋。
原文標題:
Build your First Image Classification Model in just 10 Minutes!
原文連結:
https://www.analyticsvidhya.com/blog/2019/01/build-image-classification-model-10-minutes/
編輯:黃繼彥
譯者簡介