僅用40張圖片就能訓練視覺模型:CVPR 2019伯克利新論文說了什麼?
在工業界的熱情參與下,AI行業大會近年來的發展可謂是如火如荼。不過,依然很少有哪個能比得上CVPR在計算機視覺領域的影響力。其中, 又以oral口頭報導的文章最具重量級。
那麼在CVPR 2019中,又有哪些成果獲此殊榮呢?
伯克利大學研究小組提出的Open Long-Tailed Recognition (OLTR) 開放長尾識別,就為計算機視覺系統在現實世界中的應用提供了新的分類標準。
以往的CV系統存在哪些問題,OLTR又提供了哪些解決方案?不妨通過一篇文章搶先了解一下。
實驗室與現實的距離:神經網路的“視覺盲點”
長久以來,我們理解中的機器視覺往往是這樣工作的:
研究人員會依據影像所具有的本身特徵先將其分類,然後設計一個演算法,使用設定好的資料集進行預訓練。然後,給AI一張圖片,它會根據儲存記憶中已經分好的類別進行識別,檢視是否有與該影像具有相同或類似特徵的儲存記憶,從而快速識別出是該影像。只要投喂足夠多的照片,特徵分類足夠準確,識別演算法的精準度也會逐步提升。
模式識別技術近兩年突飛猛進,加上在公共安全、工業、農業、交通、生物等領域的不斷落地,比如車牌識別、人臉識別、指紋識別、心電圖檢測等等,是應用最為成熟、群眾基礎最為廣泛的AI技術之一。
但,問題也出在這裡。
由於訓練資料和測試資料都是在封閉環境下進行的,比如ImageNet資料集,這與現實世界中的情況卻截然不同。
因為在現實中,充斥著許多無法出現在測試資料集中的開放類別。它們要麼數量珍貴而稀少,比如自然界中的野生動物;要麼繁多而不規律,諸如街道標誌、時尚品牌、面孔、天氣狀況、街道狀況等等,在日常生活分佈的概率也是不平衡的。
如果只是簡單地將現有的計算機視覺分類放在現實中的識別問題上,結果會怎樣呢?伯克利的研究人員告訴你,就是被打臉。
(現有的計算機視覺分類與現實世界的場景之間存在相當大的差距)
當以為生態學家想利用現有的CV技術來識別相機中所捕捉到的野生動物時,不出意外地,由於沒有足夠的訓練資料,系統失敗了……
更令人悲傷的是,在此類情境中,收集更多資料是非常不現實的。
對於一些瀕臨滅絕的野生珍稀動物,人們往往要花很長的時間,甚至要等上好幾年才能成功拍到一次照片。與此同時,新的動物物種不斷出現,舊的動物物種不斷離開。在自然界這個動態系統中,識別物件的總分類數從來沒有固定過。
即使現有的計算機視覺技術在大眾類別上做得再好,比如精準識別出人類和貓狗等,但對於這些不均衡的分類物件,現在的方法依然無能為力。
之所以出現這種問題,核心原因或在於:面對實際應用時,機器視覺的分類任務不應該被作為單項任務來對待並解決,而應該當成一個整體來看待。即一個能夠對少數擁有海量ImageNet資料集的常見類別,以及大多數罕見類別,都能夠進行分類的實用系統。
要實現這一點,就要求CV系統具備一種能力,能夠從幾個已知的事例中推匯出單一類別的概念,並對一個從未見過的類別的實際圖例對應上新的概念。這就不再是邏輯命題,而是智慧型的學習命題了。為了儘可能地消滅“次元壁”中存在的“視覺盲點”,OLTR開放長尾識別框架應運而生。
OLTR,讓CV系統更全能
如上所述,“開放長尾識別”(OLTR)的核心任務目標,就是讓系統能夠從長尾資料和開放的分散式資料中進行學習,能夠在包括頭、尾和開放類的平衡測試集上表現出較好的分類精度。
也就是說,除了一些主流的樣本豐富的物件,對於資料匱乏的、分佈廣泛導致出現頻率不均衡的物體,系統也能夠做到很好的識別。
顯然,有了OLTR的機器視覺會變得能力更全面,也更符合現實環境的需求。它的特殊之處,主要依靠視覺記憶能力來實現。
研究人員將影像對映到一個特徵空間,將影像特徵和記憶特徵結合在一起,這樣視覺系統就可以基於封閉環境分類的學習度量,對開放世界中存在的新穎物體和長尾類進行理解。即使在缺乏觀察資料和特徵的情況下,視覺記憶也能夠對開放類進行理解並努力識別。
(讓CV系統具備視覺記憶能力)
實驗結果顯示,記憶特徵的加入,使得CV系統能夠更好地啟用起視覺神經元。比如,識別“公雞”這一長尾類物體(位於下圖左上角cock)時,具有記憶功能的CV系統已經學會了將其轉換為“鳥頭”、“圓型”和“虛線紋理”的視覺概念,並將被普通CV模型錯誤分類的圖片正確地識別了出來。
(從記憶體特性中注入視覺記憶特徵的系統示例)
在現實任務中,這種新方法也表現出了極強的開放性,能夠在不犧牲豐富類的前提下,對稀缺類別的識別實現明顯的改進。
以前面提到的認識野生動物為例,對於那些影像不超過40幅的種類,OLTR實現了從25%到66%的效能提升。
與目前大多數計算機視覺方案相比,OLTR顯然更符合資料自然分佈的真實世界。那麼,它的出現最有可能給哪些CV技術帶來改變呢?
檢測、分割:CV問題的新解法
可以明確的是,OLTR的出現,解決了CV領域最為經典的問題之一——分類(classification)。那麼,自然也就間接影響了分類問題的諸多應用領域。其中,比較多的就是目標檢測和影像分割。
先說說目標檢測。
目標檢測已經在諸多產業中都有應用,簡單的論文也越來越難發表了,比如手機拍照中用一個框來定位人臉,或者是智慧監控中的人體定位,都屬於目標檢測的範疇。
但關於它的技術探索還遠沒有達到勸退科學家的程度,這是因為,目標檢測演算法目前還存在著不少亟待突破的難點:
比如資料標註的巨大成本,能不能通過更有小弟分類來解決;小規模資料的監督學習怎樣才能更有效地提升精度;對單影像單類別場景進行弱監督多類檢測學習等等。
這些都是應用場景中比較需要關注的問題,恰好也是OLTR能夠帶來改變的地方。
再說影像分割。簡單來說就說輸入一張圖片,然後對每一個畫素點都進行分類標記,則完成了對整個圖片的分割。
比如深度學習對醫學影像進行解讀和診斷,自動駕駛汽車區分人、車、障礙物等,就採用了語義分割的技術。
但該類演算法目前面臨著三大難題:一是計算成本高,要保證準確率,需要的儲存空間和資料都非常龐大。二是計算效率低,由於需要對每個畫素塊進行計算卷積,造成了很大程度的重複和算力浪費;三是效能桎梏,受畫素塊的限制,感知神經元往往只能提取一些區域性特徵,從而影響分類識別的準確率。
節約計算量、儘可能考慮全域性資訊、高效能分類,是影像分割未來迭代的重點。
此時,OLTR的優勢就展現出來了。
首先,它用增強視覺記憶的方式,幫助CV系統在頭部類別的基礎上完成尾部、開放類別的特徵分類與學習,這意味著可以告別超大規模的資料集,通過小樣本的無監督學習一樣能夠達到同樣的高精度效能,降低了計算機視覺的應用和訓練成本。
其次,由於OLTR具有通用化、整體性的分類能力,使得CV系統能夠在現實環境中表現的更好,尤其是面對一些出現頻率低、難以進行監督訓練的物體時,系統能夠根據以往的“經驗”為其賦予新的視覺概念並識別出來。對於效能要求極高的自動駕駛、醫療診斷等應用來說,無疑是雪中送炭。
總而言之,OLTR的出現,將給CV演算法、軟體與產業應用都帶來不小的改變。但其勢能有多大,還需要有越來越多的開發者和企業開始嘗試用其解決現實問題,逐步迭代升級,後續想必還會有不少驚喜。
即使是習以為常的技術,也有自我思考和蝶變的可能。身處時代變革中心的我們,不妨共同期待一下CPVR 2019還有哪些創造。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2645215/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- BERT新轉變:面向視覺基礎進行預訓練| NeurIPS 2019論文解讀視覺
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- 使用 TensorBoard 視覺化模型、資料和訓練ORB視覺化模型
- CVPR 2019收錄論文ID公開,你上榜了嗎?
- 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
- 大模型時代的計算機視覺!CVPR 2024線上論文分享會啟動大模型計算機視覺
- ICML:2019論文接收結果視覺化視覺化
- 盤點曠視14篇CVPR 2019論文,都有哪些亮點?
- 首發 | 曠視14篇CVPR 2019論文,都有哪些亮點?
- 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡模型
- 利用Tensorboard視覺化模型、資料和訓練過程ORB視覺化模型
- 熬夜整理出40張視覺化大屏模板,不敲一個程式碼就能直接套用視覺化
- 在測試集上訓練,還能中CVPR?這篇IEEE批判論文是否合理?
- 圖論訓練記錄 2024.10圖論
- 圖片質量評估論文 | 無監督SER-FIQ | CVPR2020
- 為了帶你精通 Java AQS,我畫了 40 張圖,從管程模型講起!JavaAQS模型
- 視覺化 Keras 訓練過程視覺化Keras
- 大屏視覺化用什麼開發,視覺化地圖用什麼軟體做好一點視覺化地圖
- 僅用一行程式碼就能視覺化人工神經網路(ANNs)!行程視覺化神經網路
- BERT新轉變:面向視覺基礎進行預訓練視覺
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 什麼是LLM大模型訓練,詳解Transformer結構模型大模型ORM
- 利用PyTorch訓練模型識別數字+英文圖片驗證碼PyTorch模型
- [原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎原始碼模型並行分散式
- LeCun 的世界模型初步實現!基於預訓練視覺特徵,看一眼任務就能零樣本規劃LeCun世界模型視覺特徵
- 2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等計算機視覺模型
- 20 張圖說清楚什麼是 IP 協議協議
- CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導航新方法視覺
- 視覺化影像處理 | 視覺化訓練器 | 影像分類視覺化
- 論文資源: CVPR、ICCV、ECCV、IJCAI等計算機視覺、影像處理頂會頂刊歷年論文連結AI計算機視覺
- CVPR 2024 | 自動駕駛世界模型四維時空預訓練自動駕駛世界模型
- CVPR 2018最佳論文作者親筆解讀:研究視覺任務關聯性的Taskonomy視覺
- 完勝 BERT,谷歌最佳 NLP 預訓練模型開源,單卡訓練僅需 4 天谷歌模型
- 微軟論文解讀:用於視覺對話的多步雙重注意力模型微軟視覺模型
- GitHub 2019 年度報告都說了什麼?Github
- 膠囊網路與計算機視覺教程 @CVPR 2019計算機視覺
- AI打遊戲-貳(收集訓練圖片)AI遊戲
- 三維展示圖怎麼做,視覺化地圖設計用什麼軟體?視覺化地圖