智慧標註原理揭秘 一文讀懂人工智慧如何解決標註難題

AIBigbull2050發表於2020-07-17

無論是在傳統機器學習領域還是現今炙手可熱的深度學習領域,基於訓練樣本有明確標籤或結果的監督學習仍然是一種主要的模型訓練方式。尤其是深度學習領域,需要更多資料以提升模型效果。目前,已經有一些規模較大的公開資料集,如ImageNet,COCO等。對於深度學習入門者,這些公開資料集可以提供非常大的幫助;但是對於大部分企業開發者,特別在醫學成像、自動駕駛、工業質檢等領域中,他們更需要利用專業領域的實際業務資料定製AI模型應用,以保證其能夠更好地應用在業務中。因此,業務場景資料的採集和標註也是在實際AI模型開發過程中必不可少的重要環節。

資料標註的質量和規模通常是提升AI模型應用效果的重要因素,然而完全透過人力手動標註資料建立一個高質量、大規模專業領域資料集卻並不容易:標註人員的培訓與手工標註成本高、耗時長。為解決此問題,我們可以利用主動學習的方法,採用“Human-in-the-loop”的互動式框架(圖1)進行資料標註,以有效減少人工資料標註量。

圖1 基於主動學習的“Human-in-the-loop”互動式資料標註框架

主動學習(Active Learning, AL)是一種挑選具有高資訊度資料的有效方式,它將資料標註過程呈現為學習演算法和使用者之間的互動。其中,演算法負責挑選對訓練AI模型價值更高的樣本,而使用者則標註那些挑選出來的樣本。如“Human-in-the-loop”互動式資料標註框架,透過使用者已標註的一部分資料來訓練AI模型,透過此模型來標註剩餘資料,再從中篩選出AI模型標註較為困難的資料進行人工標註,再將這些資料用於模型的最佳化。幾輪過後,用於資料標註的AI模型將會具備較高的精度,更好地進行資料標註。以影像分類問題舉例,首先,人工挑選並標註一部分影像資料,訓練初始模型,然後利用訓練的模型預測其餘未標註的資料,再透過“主動學習”中的“查詢方法”挑選出模型比較難分辨類別的資料,再人為修正這些“難”資料的標籤並加入訓練集中再次微調(Fine-tuning)訓練模型。“查詢方法”是主動學習的核心之一,最常見的“查詢方法”有基於不確定性的樣本查詢策略和基於多樣性的樣本查詢策略。

基於不確定性的樣本查詢策略可查詢出深度學習模型預測時,靠近決策邊界的樣本。以二分類問題舉例,當一個未標註樣本被預測為任一標籤的機率都是50%時,則該樣本對於預測模型而言是“不確定”的,極有可能被錯誤分類。要注意的是,主動學習是一個迭代過程,每次迭代,模型都會接收認為修正後的標註資料微調模型,透過這個過程直接改變模型決策的邊界,提高分類的正確率。

基於多樣性的查詢策略,可實現對當前深度學習模型下狀態未知樣本的查詢。將透過多樣性查詢挑選出的資料加入訓練集,可豐富訓練集的特徵組合,提升模型的泛化能力。模型學習過的資料特徵越豐富,泛化能力越強,預測模型適用的場景也越廣。

為解決大資料量標註的痛點,基於主動學習且融合多樣查詢策略的智慧標註AI解決方案應運而生。透過EasyDL平臺使用智慧標註後,開發者們只需標註資料集中30%左右的資料,即可啟動智慧標註在EasyDL後臺自動標註剩餘資料,再返回少量後臺難以確定的資料再次進行人工標註,同時提升自動標註的準確性,經過幾輪之後,在實際專案測試中,智慧標註功能可以幫助使用者節省70%的資料標註量,極大地減少資料標註中的人力成本和時間成本。

EasyDL零門檻AI開發平臺,面向企業開發者提供智慧標註、模型訓練、服務部署等全流程功能,針對AI模型開發過程中繁雜的工作,提供便捷高效的平臺化解決方案。EasyDL面向不同人群提供了經典版、專業版、行業版三種產品形態,其中EasyDL專業版支援深度開發高精度業務模型,內建了豐富的大規模預訓練模型,僅需少量資料即可達到優異的模型效果。目前,EasyDL的智慧標註功能已支援計算機視覺CV方向的物體檢測模型、自然語言處理NLP方向的文字分類模型兩大方向的資料標註。選擇EasyDL專業版模型定製,點選“智慧標註“即可進入。使用方法也很簡單,共為三步:

  • Step1啟動智慧標註

在“資料管理/標註”上傳完訓練資料集後,即可啟用“建立智慧標註任務”按鈕(圖2),點選該按鈕後,進入資料集選擇。需要注意的是,系統將自動對選擇的資料集進行校驗。校驗規則如下:

影像資料集:確保每個標籤的標註框數都超過10個。

文字資料集:資料集中已標註資料量超過600條;每個標註標籤的資料量超過50條;未標註資料的資料量超過600條。

以上影像和文字資料集之所以採取不同的校驗規則,是因為在實際場景下,文字與影像的資料集獲取方式及資料規模區別較大,且智慧標註後端AI模型訓練的啟動樣本數量不一。

點選“啟動智慧標註”,進入資料校驗階段,若校驗不透過,會出現“智慧標註啟動失敗”的提示;若校驗透過,則進入篩選資料階段,使用者需稍作等待。

圖2 建立智慧標註任務

  • Step2標註部分資料

系統會自動從未標註資料集中篩選出最具有代表性、也是最需要優先標註的樣本資料。使用者需要人工標註這些推薦的樣本資料,為了提高標註效率,系統也會提供預標註供使用者修改確認。在影像智慧標註中,使用者勾選右上角的“顯示預標註”開啟該輔助功能(圖3),點選“滿意預標註結果”即可對預標註結果進行確認;在文字智慧標註中,系統會自動顯示預標註標籤,點選每一條文字右側的“確認”或右上角的“本頁全部確認”對預標註進行確認(圖4)。

確認所有推薦資料的預標註後,使用者可以自主選擇是否進行下一輪資料篩選。影像智慧標註中,若使用者不中止智慧標註,則系統會自動進行下一輪;文字智慧標註中,由於文字資料集規模一般較大,確認資料預標註的人力成本較高,為了提升使用者體驗,系統不預設進入下一輪迭代,使用者可點選右上角的“最佳化智慧標註結果”進行下一輪篩選(圖5)。透過多輪篩選,資料預標註準確性也會不斷提升。為了保證資料標註智慧,建議使用者至少進行一輪的資料篩選或“最佳化智慧標註”。

圖3 影像智慧標註


圖4 文字智慧標註


圖5 文字智慧標註進入資料篩選最佳化迭代

  • Step3結束智慧標註

當使用者覺得當前推薦資料的預標註已足夠準確,不再進行下一輪資料標註推薦篩選,或者系統自動判斷當前標註的資料已足夠時,則進入結束智慧標註階段。在影像智慧標註中,系統會彈出提示(圖6),選擇“一鍵標註”系統會自動標註剩餘未標註資料,選擇“立即訓練”則停止智慧標註,之後可以利用已確認的標註資料去訓練模型;在文字智慧標註中,不選擇“最佳化標註結果”則認為停止智慧標註,系統自動標註所有未標註資料,並歸為“已標註·智慧”資料集,該類資料與“已標註·人工”均可用於模型訓練。

圖6 結束影像智慧標註

圖7 EasyDL智慧標註使用流程圖

在智慧標註功能的加持之下,重複枯燥的標註功能都交給AI模型,大大降低了時間與人力成本。在資料方面,EasyDL中的EasyData智慧資料服務平臺,提供覆蓋採集、清洗、標註、加工等一站式資料處理功能,並與模型訓練環節無縫對接,透過資料閉環功能支援高效的模型迭代。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2705153/,如需轉載,請註明出處,否則將追究法律責任。

相關文章