別做空想家!學好PyTorch,你的物件識別專案穩了
Keras是一個很棒的庫,它提供了一個簡單的API來構建神經網路,但最近對PyTorch的興奮感最終讓我對探索這個庫產生了興趣。雖然我是一個"盲目追隨炒作"的人,但是研究人員的採用和fast.ai的推崇使我確信在這個深度學習的新入口中必定有新的東西值得我去探尋。
由於學習新技術的最佳方法是使用它來解決問題,所以我學習PyTorch的工作始於一個簡單的專案:使用預先訓練的卷積神經網路進行物件識別任務。在本文中,我們將看到如何使用PyTorch來實現這一目標,並在此過程中學習一些關於庫和遷移學習的重要概念。
雖然PyTorch可能不適合所有人,但在這一點上,很難說出哪個深度學習庫會脫穎而出,而能夠快速學習和使用不同的工具對於成為資料科學家來說至關重要。
該專案的完整程式碼在GitHub上以Jupyter Notebook的形式提供(%20Learning%20in%20PyTorch.ipynb)。這個專案源於我參加Udacity PyTorch獎學金挑戰()。
遷移學習法
我們的任務是訓練可以識別影像中物體的卷積神經網路(CNN)。我們將使用Caltech 101資料集(),該資料集包含101個類別的影像。大多數類別只有50個影像,這些影像通常不足以讓神經網路學會高精度。因此,我們將使用預先構建和預先訓練的模型來應用遷移學習,而不是從頭開始構建和訓練CNN。
遷移學習的基本前提很簡單:採用在大型資料集上訓練的模型,並將其轉移到較小的資料集上。對於使用CNN的物件識別,我們凍結網路的早期卷積層,並且僅訓練進行預測的最後幾層。這個想法是卷積層提取適用於影像的一般,低階特徵(例如邊緣、圖案、漸變)後面的圖層識別影像中的特定特徵,如眼睛或車輪。
因此,我們可以使用在大規模資料集(通常是Imagenet)中訓練不相關類別的網路,並將其應用於我們自己的問題中,因為影像之間共享通用的低階特徵。Caltech 101資料集中的影像與Imagenet資料集中的影像非常相似,模型在Imagenet上學習的知識應該很容易轉移到此任務中。(http://www.image-net.org/)
遷移學習背後的理念
以下是物體識別的遷移學習的概要:
-
載入在大型資料集上訓練的預訓練CNN模型
-
凍結模型的下卷積層中的引數(權重)
-
新增具有多層可訓練引數的自定義分類器以進行建模
-
訓練可用於任務的訓練資料的分類器層
-
根據需要微調超引數並解凍更多層
事實證明,這種方法適用於廣泛的領域。這是一個很好的工具,通常是面對新的影像識別問題時應該嘗試的第一種方法。
資料設定
對於所有資料科學問題,正確格式化資料將決定專案的成功或失敗。幸運的是,Caltech 101資料集影像清晰,並以正確的格式儲存。如果我們正確設定資料目錄,PyTorch可以很容易地將正確的標籤與每個類關聯起來。我將資料分為訓練,驗證和測試集,分別為50%,25%,25%,然後按如下方式構建目錄:
按類別劃分的訓練影像數量(我可以互換地使用術語類別和類別):
我們希望模型在具有更多示例的類上做得更好,因為它可以更好地學習將特性對映到標籤。為了處理有限數量的訓練樣例,我們將在訓練期間使用資料增加。
作為另一項資料探索,我們還可以檢視大小分佈。
Imagenet模型需要224 x 224的輸入大小,因此其中一個預處理步驟將是調整影像大小。預處理也是我們為訓練資料實施資料增強的地方。
資料增強
資料增強的想法是透過對影像應用隨機變換來人為地增加模型看到的訓練影像的數量。例如,我們可以隨機旋轉或裁剪影像或水平翻轉它們。我們希望我們的模型能夠區分物件,而不管方向如何,資料增強也可以使模型對輸入資料的轉換不變。
無論大象朝哪個方向走,大象仍然是大象!
通常僅在訓練期間進行增強(儘管在fast.ai庫中可以進行測試時間增加)。每個時期 - 透過所有訓練影像的一次迭代 - 對每個訓練影像應用不同的隨機變換。這意味著如果我們迭代資料20次,我們的模型將看到每個影像的20個略有不同的版本。整體結果應該是一個模型,它可以學習物件本身,而不是如何呈現它們或影像中的工件。
影像預處理
這是處理影像資料最重要的一步。在影像預處理期間,我們同時為網路準備影像並將資料增強應用於訓練集。每個模型都有不同的輸入要求,但如果我們讀完Imagenet所需的內容,我們就會發現我們的影像需要為224x224並標準化為一個範圍。
要在PyTorch中處理影像,我們使用遷移,即應用於陣列的簡單操作。驗證(和測試)遷移如下:
-
調整
-
中心裁剪為224 x 224
-
遷移為張量
-
用均值和標準差標準化
透過這些遷移的最終結果是可以進入我們網路的張量。訓練變換是相似的,但增加了隨機增強。
首先,我們定義訓練和驗證轉換:
然後,我們建立資料集和資料閱讀器。ImageFolder建立資料集,PyTorch將自動將影像與正確的標籤關聯,前提是我們的目錄設定如上述。然後將資料集傳遞給DataLoader,這是一個產生批次影像和標籤的迭代器。
我們可以使用以下方法檢視DataLoader的迭代行為:
批處理的形狀是(batch_size,color_channels,height,width)。在訓練、驗證和最終測試期間,我們將遍歷DataLoaders,一次透過包含一個時期的完整資料集。每個時期,訓練DataLoader將對影像應用稍微不同的隨機變換以進行訓練資料增強。
用於影像識別的預訓練模型
隨著我們的資料的成形,我們接下來將注意力轉向模型。為此,我們將使用預先訓練的卷積神經網路。PyTorch有許多模型已經在Imagenet的1000個類中訓練了數百萬個影像。完整的模型列表可以在這裡看到()。這些模型在Imagenet上的效能如下所示:
對於此實現,我們將使用VGG-16。雖然它沒有記錄最低的錯誤,但我發現它適用於任務,並且比其他模型訓練得更快。使用預訓練模型的過程已經建立:
-
從在大型資料集上訓練的網路載入預訓練的權重
-
凍結較低(卷積)圖層中的所有權重:根據新任務與原始資料集的相似性調整要凍結的圖層
-
用自定義分類器替換網路的上層:輸出數必須設定為等於類的數量
-
僅為任務訓練自定義分類器層,從而最佳化較小資料集的模型
在PyTorch中載入預先訓練的模型很簡單:
這個模型有超過1.3億個引數,但我們只訓練最後幾個完全連線的層。首先,我們凍結所有模型的權重:
然後,我們使用以下圖層新增我們自己的自定義分類器:
-
與ReLU啟用完全連線,shape =(n_inputs,256)
-
Dropout有40%的可能性下降
-
與log softmax輸出完全連線,shape =(256,n_classes)
將額外圖層新增到模型時,預設情況下將它們設定為可訓練(require_grad = True)。對於VGG-16,我們只改變最後一個原始的全連線層。卷積層和前5個完全連線層中的所有權重都是不可訓練的。
網路的最終輸出是我們資料集中100個類中每個類的對數機率。 該模型共有1.35億個引數,其中只有100多萬個將被訓練。
將模型移動到GPU(s)
PyTorch的最佳方面之一是可以輕鬆地將模型的不同部分移動到一個或多個gpus(https://pytorch.org/docs/stable/notes/cuda.html),以便你可以充分利用你的硬體。由於我使用2 gpus進行訓練,我首先將模型移動到cuda,然後建立一個分佈在gpus上的DataParallel模型:
(這個筆記本應該在一個gpu上執行,以便在合理的時間內完成。對CPU的加速可以輕鬆達到10倍或更多。)
訓練損失和最佳化
訓練損失(預測和真值之間的誤差或差異)是負對數似然(NLL:)。(PyTorch中的NLL損失需要對數機率,因此我們從模型的最後一層傳遞原始輸出。)PyTorch使用自動微分,這意味著張量不僅跟蹤它們的值,而且還跟蹤每個操作(乘法,加法,啟用等)。這意味著我們可以針對任何先前張量計算網路中任何張量的梯度。
這在實踐中意味著損失不僅跟蹤誤差,而且跟蹤模型中每個權重和偏差對誤差的貢獻。在我們計算損失後,我們可以找到相對於每個模型引數的損失梯度,這個過程稱為反向傳播。一旦我們獲得了梯度,我們就會使用它們來更新引數和最佳化器。
最佳化器是Adam(),梯度下降的有效變體,通常不需要手動調整學習速率。在訓練期間,最佳化器使用損失的梯度來嘗試透過調整引數來減少模型輸出的誤差("最佳化")。只會最佳化我們在自定義分類器中新增的引數。
損失和最佳化器初始化如下:
透過預先訓練的模型,自定義分類器,損失,最佳化器以及最重要的資料,我們已準備好進行訓練。
訓練
PyTorch中的模型訓練比Keras中的實際操作多一些,因為我們必須自己進行反向傳播和引數更新步驟。主迴圈迭代多個時期,並且在每個時期迭代透過DataLoader。 DataLoader生成一批我們透過模型的資料和目標。在每個訓練批次之後,我們計算損失,相對於模型引數反向傳播損失的梯度,然後用最佳化器更新引數。
我建議你檢視筆記本上的完整訓練詳細資訊(%20Learning%20in%20PyTorch.ipynb),但基本的虛擬碼如下:
我們可以繼續迭代資料,直到達到給定數量的時期。然而,這種方法的一個問題是,我們的模型最終將過度擬合訓練資料。為了防止這種情況,我們使用驗證資料並早期停止。
早期停止
早期停止()意味著當驗證損失在許多時期沒有減少時停止訓練。在我們繼續訓練時,訓練損失只會減少,但驗證損失最終會達到最低限度並達到穩定水平或開始增加。理想情況下,當驗證損失最小時,我們希望停止訓練,希望此模型能夠最好地推廣到測試資料。當使用早期停止時,驗證損失減少的每個時期,我們儲存引數,以便我們以後可以檢索具有最佳驗證效能的那些。
我們透過在每個訓練時期結束時迭代驗證DataLoader來實現早期停止。我們計算驗證損失並將其與最低驗證損失進行比較。如果到目前為止損失最小,我們儲存模型。如果在一定數量的時期內損失沒有改善,我們停止訓練並返回已儲存到磁碟的最佳模型。
同樣,完整的程式碼在筆記本中,但虛擬碼是:
要了解早期停止的好處,我們可以檢視顯示訓練和驗證損失和準確性的訓練曲線:
正如預期的那樣,隨著進一步的訓練,訓練損失只會繼續減少。另一方面,驗證損失達到最低和穩定的狀態。在某一時期,進一步訓練是沒有回報的(甚至是負回報)。我們的模型將僅開始記憶訓練資料,並且無法推廣到測試資料。
如果沒有早期停止,我們的模型將訓練超過必要的時間並且將過度訓練資料。
我們從訓練曲線中可以看到的另一點是我們的模型並沒有過度擬合。總是存在一些過度擬合,但是在第一個可訓練的完全連線層之後的退出可以防止訓練和驗證損失過多。
做出預測:推論
在筆記本中我處理了一些無聊但必要的儲存和載入PyTorch模型的細節,但在這裡我們將移動到最佳部分:對新影像進行預測。我們知道我們的模型在訓練甚至驗證資料方面做得很好,但最終的測試是它如何在一個前所未見的保持測試集上的執行。我們儲存了25%的資料,以確定我們的模型是否可以推廣到新資料。
使用訓練過的模型進行預測非常簡單。我們使用與訓練和驗證相同的語法:
我們機率的形狀是(batch_size,n_classes),因為我們有每個類的機率。我們可以透過找出每個示例的最高機率來找到準確性,並將它們與標籤進行比較:
在診斷用於物件識別的網路時(),檢視測試集的整體效能和單個預測會很有幫助。
模型結果
以下是模型的兩個預測:
我們不僅僅想關注正確的預測,我們還將很快就會看到一些錯誤的輸出。現在讓我們評估整個測試集的效能。為此,我們希望迭代測試DataLoader並計算每個示例的損失和準確性。
用於物件識別的卷積神經網路通常根據topk精度(https://stats.stackexchange.com/questions/95391/what-is-the-definition-of-top-n-accuracy)來測量。這是指真實的類是否屬於k最可能預測的類中。例如,前5個準確度是5個最高機率預測中正確等級的百分比。你可以從PyTorch張量中獲取topk最可能的機率和類,如下所示:
在整個測試集上評估模型,我們計算指標:
這些與驗證資料中接近90%的top1精度相比是有利的。總的來說,我們得出結論,我們的預訓練模型能夠成功地將其知識從Imagenet轉移到我們較小的資料集。
模型調查
儘管該模型表現良好,但仍有可能採取一些步驟可以使其變得更好。通常,弄清楚如何改進模型的最佳方法是調查其錯誤(注意:這也是一種有效的自我改進方法。)
我們的模型不太適合識別鱷魚,所以我們來看看這個類別的一些測試預測:
考慮到鱷魚和鱷魚頭之間的微妙區別,以及第二張影像的難度,我會說我們的模型在這些預測中並非完全不合理。影像識別的最終目標是超越人類的能力,我們的模型幾乎已經接近了!
最後,我們希望模型在具有更多影像的類別上表現更好,因此我們可以檢視給定類別中的準確度圖表與該類別中的訓練影像數量:
在訓練影像的數量和前一個測試精度之間似乎存在正相關關係。這表明更多的訓練資料增加是有所幫助的,或者我們應該對測試時間進行增加。我們還可以嘗試不同的預訓練模型,或者構建另一個自定義分類器。目前,深度學習仍然是一個經驗領域,這意味著經常需要實驗!
結論
雖然有更容易使用的深度學習庫,但PyTorch的優點是速度快,對模型架構/訓練的各個方面的控制好,能使張量自動區分的反向傳播,以及由於PyTorch圖的動態特性而易於除錯的程式碼。對於生產程式碼或你自己的專案,我不確定使用PyTorch而不是具有更溫和學習曲線的庫(例如Keras)還存在令人信服的論據,但知道如何使用不同選項會很有幫助。
透過這個專案,我們能夠看到使用PyTorch的基礎知識以及遷移學習的概念,這是一種有效的物件識別方法。我們可以使用已在大型資料集上進行過訓練的現有體系結構,然後根據我們的任務調整它們,而不是從頭開始訓練模型。這無疑減少了訓練的時間並且通常導致更好的整體效能。這個專案的成果是對遷移學習和PyTorch一些知識的應用,我們可以構建它來構建更復雜的應用程式。
我們確實生活在一個令人難以置信的深度學習時代,任何人都可以利用輕鬆可用的資源建立深度學習模型!現在是時候,透過構建自己的專案來更好的利用這些資源了。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545819/viewspace-2222242/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 虹膜識別和眼紋識別的區別 虹膜識別和眼紋識別哪個好?
- 在公司做的專案和自己在學校做的有什麼區別?
- 語音識別開源專案
- 為什麼你在辛苦做專案國際化,而別人在喝茶?
- 學習Pytorch+Python之MNIST手寫字型識別PyTorchPython
- Python識別驗證碼!學會這步,百分之60的網站你基本都能識別了!Python網站
- 有了 iText,你截圖,騰訊、Google OCR 幫你識別文字Go
- 深度學習——性別識別深度學習
- 六西格瑪黑帶可以做哪些型別的專案?型別
- 人臉識別檢測專案實戰
- 微軟牛津專案人臉識別API初探微軟API
- 從燃盡圖看專案管理:你的專案哪裡出錯了?(燃盡圖型別全解析)專案管理型別
- 為你的專案啟用可空引用型別型別
- 在 WebStorm 中,配置能夠識別 Vue CLI 3 建立的專案的別名 alias @WebORMVue
- 如何識別檔案的真假
- 答應我,別在go專案中用init()了Go
- NLP專案實戰02:英文文字識別
- GitHub車牌檢測識別專案調研Github
- 專案里程碑如何識別、建立及管理?
- 鴻蒙專案實戰(六):識別本地圖片鴻蒙地圖
- 純html如何識別.vue檔案並搭建vue專案HTMLVue
- 思否開源專案推介丨smartParsePro:基於地址的智慧識別專案
- 識別和修復無效物件物件
- 別再瞎找專案了,公眾號依舊是你不二選擇
- 硬碟格式化,誤刪除,無法識別的解決方式,你都學會了麼?硬碟
- 年底了,你的專案該覆盤了
- 我用YOLOv5做情感識別!YOLO
- 教你如何快速識別好固態硬碟?硬碟
- 文字識別軟體用什麼好?
- 你的專案使用Optional了嗎?
- 人臉識別相關開源專案彙總
- Mozilla “Common Voice” 開源語音識別專案
- 初學Python不知道做什麼專案好?來看看練手專案如何?Python
- 雙十一來了,別讓你的mongodb當機了MongoDB
- 專案風險類別
- 好玩的github專案-golang實現的gmm-ubm演算法的說話人識別(聲紋識別)引擎GithubGolang演算法
- php物件導向知識 this,self,parent的區別PHP物件
- 為你的 JavaScript 專案新增智慧提示和型別檢查JavaScript型別