重新審視深度學習時代資料的非理性效果
文 / 機器感知指導教師 Abhinav Gupta
過去十年裡,計算機視覺領域取得了巨大成功,這在很大程度上得直接歸功於深度學習模型在機器感知任務中的應用。
此外,自 2012 年以來,這些系統的表徵能力取得了長足的進步,這歸因於:
(a) 極為複雜的更深度模型的建立;
(b) 計算能力不斷提升;
(c) 可獲得大規模的標註資料。
儘管計算能力和模型複雜度每年都在不斷提升(已從 7 層的 AlexNet 提高到 101 層的 ResNet),但可用資料集並未得到相應的擴充。與 AlexNet 相比,101 層的 ResNet 的容量要大得多,但它仍在使用同樣從 ImageNet circa 2011 獲取的 100 萬張影象進行訓練。作為研究人員,我們一直想知道:如果將訓練資料量擴大 10 倍,準確率是否會翻倍?擴大 100 倍甚或 300 倍,準確率又會如何?準確率是否會遭遇平臺期?還是說資料越多,準確率就越高?
▲ 過去五年裡,GPU 的計算能力和模型大小在不斷提高,但令人吃驚的是,最大的培訓資料集的規模卻停滯不前。
在我們的《重新審視深度學習時代資料的非理性效果》(Revisiting Unreasonable Effectiveness of Data in Deep Learning Era) 這篇論文中,我們在揭開圍繞“海量資料”和深度學習之間關係的謎團方面邁出了第一步。我們的目標是探究以下問題:
(a) 向現有演算法提供更多帶有噪聲標籤的影象是否仍可以改善視覺表徵;
(b) 分類、物件檢測和影象分割等標準視覺任務中,資料與效能之間的本質關係;
(c) 通過大規模學習找到適用於計算機視覺領域所有任務的最先進模型。
當然,一個無法迴避的問題是我們從何處獲取一個比 ImageNet 大 300 倍的資料集?在 Google,我們一直致力於自動構建此類資料集以改善計算機視覺演算法。具體而言,我們已構建一個包含 3 億張影象的內部資料集(我們稱之為 JFT-300M),這些影象被標記為 18291 個類別。用於標記這些影象的演算法使用了複雜的資料組合,包括原始網路訊號、網頁與使用者反饋之間的聯絡等。這為 3 億張影象生成了 10 億多個標籤(一張影象可具有多個標籤)。為最大程度提高所選影象的標籤精度,我們通過某個演算法從 10 億個影象標籤中選取了大約 3.75 億個標籤。然而,這些標籤中仍然存在大量噪聲:所選影象的標籤中約有 20% 帶有噪聲。由於缺乏詳盡的註解,我們無法評估標籤的回想率。
我們的實驗結果證實了部分假設,但也產生了一些意外的驚喜:
更好的表徵學習確實大有裨益。 我們的第一個觀察結果是大規模資料有助於表徵學習,進而改善了我們研究的每個視覺任務的效能表現。我們的研究發現表明:共同構建一個大規模資料集進行預訓練非常重要。同時,實驗也表明,無監督和半監督表徵學習方法的前景非常光明。資料規模似乎可克服標籤方面的噪聲問題。
表現與訓練資料的數量級呈線性遞增關係。 也許整個實驗最驚人的發現就是視覺任務的表現和用於表徵學習的訓練資料量(對數)之間的關係了。我們發現它們之間的關係竟然是線性的!即使訓練影象達到 3 億張,我們也並未觀察到對所研究的任務產生任何平臺效應。
▲ 通過針對 JFT-300M 的不同子集從零開始進行預訓練時的物件檢測效能。X 軸是以對數表示的資料集大小,y 軸代表針對 COCO-minival 子集的 mAP@[.5,.95] 檢測效能。
容量至關重要。我們同樣觀察到:為了充分利用 3 億張影象,我們需要更高的容量(更深的)模型。例如,就 ResNet-50 而言,其在 COCO 物件檢測基準測試中的增益 (1.87%) 大大低於使用 ResNet-152 時的增益 (3%)。
新的最佳結果。我們的論文展示了通過使用從 JFT-300M 學到的模型在多個基準中取得了新的最佳結果。例如,單一模型(沒有任何不必要的花哨功能)在 COCO 檢測基準測試中從原來的 34.3 AP 提高到現在的 37.4 AP。
請注意,我們使用的訓練機制、學習安排和引數都是基於我們使用來自 ImageNet 的 100 萬張影象對 ConvNets 進行訓練後所獲得的認識。由於我們在此項工作中並未搜尋最優超引數集(這需要極為龐大的計算量),所以在使用這種規模的資料時,這些結果很可能並不是您能夠取得的最佳結果。因此,我們認為報告的量化表現低估了資料的實際影響。
這項工作並不會關注特定任務的資料,例如探究更多的邊界框是否會影響模型表現等。我們認為,雖然獲取大規模特定於任務的資料非常困難,但它應該成為未來研究的重點。此外,構建包含 3 億張影象的資料集不應該是我們的終極目標,作為一個社群,我們要探索的是,在採用更大規模的資料集(擁有 10 億張以上的影象)時,是否可以繼續改善模型。
檢視全文及文中連結,請點選文末“閱讀原文”。
相關文章
- 深度學習(一)深度學習學習資料深度學習
- 重新審視C# Span<T>資料結構C#資料結構
- 深度學習資料深度學習
- 深度學習資料集深度學習
- 拯救深度學習:標註資料不足下的深度學習方法深度學習
- 「AI白身境」深度學習中的資料視覺化AI深度學習視覺化
- 序列資料和文字的深度學習深度學習
- 雲端計算時代的深度學習訓練深度學習
- 企業是時候重新審視資料安全與合規了
- 深度強化學習資料(視訊+PPT+PDF下載)強化學習
- 【深度學習】深度解讀:深度學習在IoT大資料和流分析中的應用深度學習大資料
- 深度學習--資料預處理深度學習
- 深度學習領域的資料增強深度學習
- 重磅福利!!機器學習和深度學習學習資料合集機器學習深度學習
- 在氣候災難的時代,這些遊戲正在用自己的方式去重新審視自然遊戲
- 大資料時代,從零學習資料思維大資料
- 無需重新學習,使用 Kibana 查詢/視覺化 SLS 資料視覺化
- 後深度學習時代,計算機視覺技術如何走向未來?深度學習計算機視覺
- 重新學習MySQL資料庫開篇:資料庫的前世今生MySql資料庫
- 深度學習中的資料預處理方法深度學習
- 深度學習——資料預處理篇深度學習
- 深度學習煉丹-資料標準化深度學習
- 大資料與深度學習區別大資料深度學習
- 機器學習,深度學習必備資料集機器學習深度學習
- 理解Transformer [資料探勘深度學習]ORM深度學習
- 資料時代,如何重新定義NAS的靈活性?
- 曠視科技姚聰博士:深度學習時代的文字檢測與識別技術深度學習
- 近期的安全視訊,學習資料
- 影像Resize方式對深度學習模型效果的影響深度學習模型
- 深度學習常用的資料集,包括各種資料跟影象資料深度學習
- 大資料時代,再不學習就OUT了大資料
- 重新審視雲端計算領域的“鼻祖”AWS
- 學習 PixiJS — 視覺效果JS視覺
- 「深度學習系列」CNN模型的視覺化深度學習CNN模型視覺化
- 計算機視覺中的深度學習計算機視覺深度學習
- 重新學習MySQL資料庫11:以Java的視角來聊聊SQL隱碼攻擊MySql資料庫Java
- 劉知遠:在深度學習時代用HowNet搞事情深度學習
- 深度學習時代的多源域適應 : 系統的 Survey深度學習