2017 年 7 月 18 日,ImageNet 最後一屆挑戰賽成績已經公佈,多個國內院校和企業在各個比賽專案上取得了非常不錯的成績。據官網資訊,在 CVPR 2017 期間也會有一場 Workshop 以紀念 ImageNet 挑戰賽。當地時間 7 月 26 日,李飛飛與 Jia Deng 在 ImageNet Workshop 上做主題演講,對 8 年的 ImageNet 挑戰賽歷史進行了總結,並宣佈之後的 ImageNet 挑戰賽將轉由 Kaggle 主辦。最後,感謝李飛飛教授提供的 PPT,以及對本文內容的確認。
在 CVPR 2017 的 ImageNet Workshop 中,演講者介紹了挑戰賽的結果,回顧了物體識別領域的頂尖成果。同時,也有挑戰賽獲勝者介紹研究成果在產業中的部署等。在李飛飛與 Deng Jia 的演講中,兩位演講者對 8 年的 ImageNet 挑戰賽進行了回顧與總結,以下是基於 PPT 對演講內容的介紹:
始於 CVPR 2009
ImageNet 始於 2009 年,當時李飛飛、Jia Deng 等研究員在 CVPR 2009 上發表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,之後就是 7 屆 ImageNet 挑戰賽的開始(2010 年開始)。
8 年來,ImageNet 這篇論文對業內有極大的影響。在 Google Scholar 上,該論文有 4386 的引用量。另一篇論文《ImageNet Large Scale Visual Recognition Challenge》(2015),也有 2847 的引用量,這篇論文描述了 ImageNet 資料集基準的創造、物體識別領域的研究進展。
眾多 ImageNet 挑戰賽的參與者發展成了創業公司,其中包括機器之心很早就關注到的影像識別創業公司 Clarifai(機器之心 AI00 獲獎者)、被谷歌收購的 DNNresearch。
ImageNet 的歷史
在演講中,演講者首先介紹了 2009 年之前的影像資料集歷史:從 1998 年 CMU 的 Vasc Faces 到 2008 年的 TinyImage 資料集。
也介紹了當時機器學習中的多種問題:複雜性、泛化、過擬合等。
如此,衍生出了一種新的思維方式:對視覺識別的關注點,從模型轉移到資料。
從 1990 年開始到 2010 年,網際網路資料的量級有了極大的增長,滿足了發展機器學習的資料需求。
在這裡,演講者對 Wordnet 專案進行了介紹,ImageNet 的層級結構正是從 WordNet 之中派生出來的。
在 20 世紀 80 年代末,普林斯頓大學的心理學家 George Miller 啟動了一個名為 WordNet 的專案,旨在構建英文語言層級結構的模型。它就像某種形式的字典一樣,但是每個單詞都會與其他相關的詞相聯絡——而非以字母表形式呈現。例如,在 WordNet 中,單詞「dog」在單詞「canine」之下,而後者在「mammal」目錄之下,往上往下都有更多的層級。這是為了讓語言組織成為機器可讀的邏輯,它已經積累了超過 155,000 個單詞。
之後,ImageNet 的研究員(包括當時普林斯頓大學博士 Jia Deng、普林斯頓大學教授 Kai Li ) 基於 WordNet 發展出 ImageNet 的層級結構。
第一步:基於 WordNet 的本體結構
第二步:為來自網際網路的數千張影像填入類別
第三步:手動清潔結果
釋出 ImageNet 的三個嘗試
這部分,演講者介紹了 ImageNet 發起者們為推進 ImageNet 所做的三個嘗試。
第一種方式:心理學實驗,但這種方式會非常耗時間。
第二種方式:人類參與的解決方案。機器生成的資料集只能匹配一時的最佳演算法,而人類生成的資料集超越了演算法限制,能夠生成更好的機器感知。
第三種方式:眾包
透過亞馬遜 mechanical turk 平臺,來自 167 個國家的 4 萬 9 千名工作者用 3 年(2007-2010)努力成就了 ImageNet。
演講者介紹說,他們的量級目標是 1500 萬,還有更高的清晰度、更高質量的標註、免費等。
驚人的成就
一張圖總結 2010-2016 年的 ImageNet 挑戰賽成果:分類錯誤率從 0.28 降到了 0.03;物體識別的平均準確率從 0.23 上升到了 0.66。
為了讓 ImgaNet 變得更好,發起者們也做了許多細節工作,比如影像量、物體種類的倍數級增加。
ILSVRC 檢測的評估需要註解所有出現的類別,從而對虛假檢測做出懲罰。ILSVRC 影像達 40 萬張,類別數量為 200,註解有 8000 萬個。
ILSVRC 檢測的評估:分層註解。
細粒度識別。ImageNet 關於汽車的資料集中,汽車影像的數量達到了 70 萬張,類別數量為 2567 個。
演講者介紹了 ImageNet 所取得的意料之中的成果。主要包括三個方面:1. ImageNet 成為了計算機視覺識別領域的標杆;2. 物體識別領域取得了前所未有的突破;3. 機器學習獲得了長足發展,同時變化也很大。
除此之外,還取得了一些意料之外的成果:神經網路再一次流行起來,並且越來越流行。演講者舉例進行了說明。在使用深度卷積神經網路進行 ImageNet 分類任務中,有一篇成果顯著的論文,即《imagenet classification with deep convolutional neural networks》(Krizhevsky, Sutskever & Hinton, NIPS 2012),該論文摘要如下:我們訓練了一個大型的深度卷積神經網路,把 ILSVRC 2010 訓練集中的 130 萬高解析度影像分為了 1000 個不同的類別。在測試資料中,我們獲得了 top1 和 top 5 的誤差率,分別是 39.7\% 和 18.9\%。該論文的引用數量為 13259,神經網路之火熱可見一斑。同時演講者還給出了該深度卷積神經網路的圖示。
隨後,神經網路變得越來越流行,並出現了多種優秀變體,可謂百花齊放,比如 AlexNet、GoogLeNet、VGG Net、ResNet。相信這些神經網路大家並不陌生。其中出現較早的是 2012 年的 AlexNet,它最早在 [Krizhevsky et al. NIPS 2012] 被提出;新近出現的是 2016 年的 ResNet,它在上年的 CVPR 中被提出,剛好一年。這些變體之間是一種前後相繼、不斷迭代的關係,同時又發揮著各自的獨特作用。
神經網路流行的同時,網路上的影像資料量有了爆發性的增長,GPU 的效能也在飛速提升,三者合力的結果就是為人類帶來了一場席捲全球的深度學習革命。
接下來講一下本體結構:一種不太常用的結構。
如圖所示,這是一隻袋熊,那麼如何把這種影像識別為一隻袋熊呢?方法是最大化特徵 ( f ) 使其符合精確度 ( f ) ≥ 1 - ε。
使用本體結構開展的工作相對來講依然很少(谷歌上只有 93 條結果),但並不妨礙有成果出現。ECCV 2012 最佳論文獎(Kuettel, Guillaumin, Ferrari.Segmentation Propagation inImageNet. ECCV 2012)就用到了本體結構。
機器視覺和人類視覺
自從 2012 卷積神經網路在計算機視覺上取得極大的成功後,我們一直在探索擁有更強大機器視覺的可能性。這也令大家都看到了近來計算機視覺所存在的侷限,比如說小資料集訓練,雖然我們能使用預訓練模型進行遷移學習,但每一個類別仍然需要成百上千的標註影像。還有比如說分清視覺的本質和外在,人類很容易分清楚穿了馴鹿服的狗還是狗,但計算機卻十分容易將其分類為馴鹿。這一些缺點都直接限制了計算機視覺的發展,那麼計算機視覺和我們人類到底區別在哪?
如下所示,相對於 GoogLeNet,Top-5 誤差率還是人類高一點,但如果使用近來最先進的模型,人類識別率卻不一定比機器高。但識別誤差率就是最關鍵的嗎?
在計算視覺的機眼中,識別的物體永遠都只是類別。如下所示,機器可以輕鬆地識別每個物體(如人和房間等),但是機器視覺也僅僅只能做到識別了,它不會思考這些人到底在幹什麼,他們為什麼都站在這,他們之間的關係是什麼。而人類即使識別物體的準確率可能還不及機器,但我們的視覺可以帶給我們足夠的資訊以分析整個場景。
如下所示,人類的視覺不僅會告訴我們每個物體是什麼,同時還會告訴我們物體間的關係、物體下一個時間步驟的動作或趨勢以及情感細節等。對於這樣的人類視覺,機器視覺還有很長的路要走,這也正是 ImageNet 所希望能促進的。
鑑於機器視覺和人類視覺之間的差距,我們因此希望計算機能描述其所見到的影像。如下所示,計算機可以在物體識別的基礎上推斷出物體間的關係,並結合 NLP 給出影像的描述。
總的來說,隨著硬體和軟體技術的發展,計算機視覺的技術正在不斷進步,目前機器學習(深度學習)在常見圖片的物體識別上已實現類似人類的識別水平。
不僅如此,目前的技術已經可以實現對一張複雜照片中的內容進行自然語言描述,並回答相應問題了。這說明深度學習可以理解圖片中的內容,並將其轉化為可掌握的知識。雖然這一過程還非常基礎,但這有助於拉近機器與人類的距離。影像描述一般也有專用的資料集,例如 Visual Genome Dataset 等。該資料集如下有 4.2M 的影像描述和 1.5M 的關係標註,它是基於目標分類實現關係和情景推理的優秀資料集。ImageNet 的下一步很可能就要傳遞給這些開放、大規模、詳細的資料集。
ImageNet 的未來
ImageNet 2017 挑戰賽是最後一屆,李飛飛在 CVPR 2017 上表明 ImageNet 挑戰賽以後將與 Kaggle 結合。她在演講中欣喜地表明她們正在將接力棒傳遞給 Kaggle,不僅因為 Kaggle 社群是最大的資料科學社群,同時還因為她們認為只有將資料做到民主化才能實現 AI 民主化。雖然 ImageNet 挑戰賽是最後一屆了,但 image-net.org 仍然會一直存在,並致力於為計算機視覺做出更大的貢獻。
Kaggle 擁有超過百萬的資料科學家,它能大大地促進更多人參與 ImageNet 挑戰賽。從最開始的 AlexNet 到後來的殘差網路,我們已經看到 ImageNet 挑戰賽催生出了許多優秀的計算機視覺解決方案。也許 ImageNet 加上 Kaggle 能繼續在目標識別、目標定位和影片目標識別等任務上實現更大的突破,並解決如模型小型化、快速訓練和更強的遷移學習等問題。
經過多年的更新,現如今 ImageNet 已經有 13M(百萬)標註影像,但各大科技公司都在構建自己更強勁的資料集。大公司希望能利用其自身使用者所產生的海量影像、語音片段和文字片段來構建更大的資料集,而初創科技公司也開始透過各種渠道或網際網路資料構建自身的大規模資料集。
開放和自由使用是 ImageNet 的宗旨,這也是 ImageNet 對計算機視覺社群做出的最大貢獻。自 ImageNet 以來,很多科技巨頭都陸續開放了大規模影像資料集。如谷歌在 2016 年釋出了 Open Images 資料集,該資料集包含 6000 多個類別共計 9M 影像,還有 JFT-300M 資料集,該資料集有 300M 非精確標註的影像。因此 ImageNet 的未來可能會催生一批大規模開放資料集。
自 2010 年起,ImageNet 經歷了多年的發展,其分類錯誤現已縮小到當初釋出時的 1/10,而這意味著 3 倍的模型預測準確率提升。在未來,計算機視覺的發展將可以預測圖片中事物的動作,理解圖片中的 3D 環境,並用自然語言對所有這些作出解釋。
隨著與 Kaggle 合併,ImageNet 挑戰賽將會接入這個擁有多達 100 萬資料科學家的龐大社群之中,為更多人帶來幫助——這與「人工智慧民主化」的理念相呼應。與此同時,該專案的原網址 image-net.org 仍將由史丹佛大學繼續運營。
「人們已經意識到,ImageNet 改變了人工智慧領域,資料集是 AI 研究的核心之一,」李飛飛表示。「在研究中,資料集與演算法同樣重要。」
在未來,ImageNet 將繼續舉辦物體定位挑戰、物體識別挑戰與影片物體識別挑戰。