藍天白雲下,一輛白色的轎車飛馳在高速上。那麼問題來了,高速上跑著的,是白雲還是汽車?
對於我們人類來說,這個問題簡直侮辱人的智商,但對於計算機呢?如果計算機沒有辨認出來,那麼自動駕駛會不會直接發生車禍?
計算機視覺要解決的就是諸如此類的問題:給計算機一雙慧眼,為計算機和機器人開發出具有與人類水平相當的視覺能力,讓它也能看清這繁華的滾滾紅塵。人工智慧的終極目標,就是讓機器像人那樣的思考、處理事情。
對於人類來說,大腦皮層70%的活動都在處理視覺資訊,一旦沒有視覺資訊,整個人工智慧就會變成一個空架子,那麼開啟計算機視覺這個通向人工智慧的大門就至關重要,畢竟門都打不開,就更別提其他真實世界中的人工智慧了。
而作為計算機視覺領域頂級學術會議之一的CVPR,其論文通常代表了計算機視覺領域的最新發展方向和水平,其備受關注也就在情理之中了。
昨日,第31屆CVPR於美國時間6 月 18 日至 22 日在美國鹽湖城召開。
爭先恐後的中國面孔
與所有其它學術領域都不同,電腦科學使用會議而不是期刊作為發表研究成果的主要方式,特別是在機器學習、計算機視覺和人工智慧領域,頂級會議才是王道。所以目前國外計算機界評價學術水平主要看在頂級學術會議上發表的論文。
當然,因為機器學習、計算機視覺和人工智慧領域發展非常迅速,新的工作層出不窮,如果把論文投到期刊上,一兩年後刊出時就有點out了。因此大部分最新的工作都首先發表在頂級會議上,這些頂級會議完全能反映“熱門研究方向”、“最新方法”。
而且很多論文都會選擇在頂級會議上首發,尤其是一些領域大牛,很多人都非常看重這些頂級的會議,很多人是80%的會議+20%的期刊。
商湯科技聯合創始人、研究院院長王曉剛也在微軟的活動中表示,在學術領域,對問題的探索很多時候並沒有跟上應用的發展,也會和實際的應用導向有所差別,但是,大家通過發表論文、寫論文,對整個領域有了全面的理解,等再進入到工業當中,處理各種問題就會遊刃有餘。
那麼,我們還有什麼理由不來頂會摻和一腳?
就今年的CVPR來說,從接收論文的作者署名和機構看,阿里、騰訊,以及計算機視覺“四小龍”為代表的中國團就特別積極,越來越多來自中國本土的學者/學生,以及中國企業的研究者,正在越來越多地登上計算機視覺全球頂會的舞臺。
據統計,本屆大會有超過 3300 篇的大會論文投稿,錄取 979 篇(接受率約為 29%,其中包括 70 篇 Oral 和 224 篇 Spotlight 論文)。
其中,商湯科技論文44篇,騰訊AILab 21篇,阿里巴巴18篇,騰訊優圖10篇,曠視7篇,相比谷歌的45篇和Facebook的 35篇也並不遜色太多。
阿里方面就派出了史上首次集結最全、最強的計算機視覺技術陣容參加視覺領域頂級學術會議,這其中包括大家熟知的達摩院等,將以會展、技術分享、學術晚宴、論文報告等方式展示在該領域的能力。
騰訊優圖也拿出了自己的看家本領,就最受外媒關注的技術和應用場景:AI技術在處理非特定場景圖片去模糊中的應用、通過Facelet-Bank進行快速肖像處理、恢復模糊影象的有效新演算法等核心技術來吸引產業界的關注。
論文所提到的技術展示
以及上文提到的眾多計算機視覺領域的中國創業公司等等。
不過,放心,CVPR有著較為嚴苛的錄用標準,會議整體的錄取率通常不超過30%,口頭報告的論文比例更是不高於5%。CVPR的審稿一般是雙盲的,也就是說會議的審稿與投稿方均不知道對方的資訊。通常某一篇論文需要由三位審稿者進行審讀。最後再由會議的領域主席(area chair)決定論文是否可被接收。
除了論文之外,更多的中國企業也出現在了CVPR2018的產業界贊助商名單之上,其中包括:百度、阿里巴巴、騰訊、京東、華為等佈局人工智慧的大公司,也包括曠視、商湯、依圖、地平線、景馳科技以及 Momenta等創業公司。
越來越熱的計算機視覺
近日,Gartner釋出了其針對人工智慧計算機視覺領域發展的研究報告,其在報告中指出“自61年前感知器被髮明以來,計算機視覺幾乎與人工智慧技術的發展同步前行,如今,人工智慧領域關鍵技術深度學習應用最為廣泛的領域也非計算機視覺莫屬。若要推動實際商業效益增長,如今應更多地關注人工智慧計算機視覺技術的應用能力和競爭力。”
從國內人工智慧企業來看,有高達42%的企業應用計算機視覺相關技術。從人工智慧市場規模分佈來看,計算機視覺也是排名第一,根據CAICT的統計,2017年我國人工智慧市場規模中有37%是計算機視覺領域。
根據IDC市場追蹤資料,截至2017年12月底,中國計算機視覺應用市場規模達15.45億元人民幣,同比2016年增長184.0%。其中,政府、金融、網際網路是計算機視覺技術支出規模最大的3個行業;政府行業中平安城市、金融行業中人臉身份驗證是技術支出規模最大的2個場景。
當前,計算機視覺賽道也是人工智慧領域最為吸金的賽道之一。以計算機視覺“四小龍”為例,依圖科技近期宣佈完成2億美元C+輪融資;商湯科技近期也宣佈完成6.2億美元C+輪融資;2017年10月曠視科技已宣佈完成4.6億美元C輪融資。
同樣,在以處理影象資料為主的AI晶片賽道上,寒武紀今天正式宣佈完成數億美元的B輪融資,估值達25億美元,地平線也在2017年10月完成近億美元A輪融資。
IDC預計,到2022年,中國計算機視覺應用市場規模將達到146. 08億元人民幣。從2017-2022年5年複合增長率來看,計算機視覺在移動裝置、自動駕駛汽車、智慧家居以及行業自動化領域的應用將實現超過80%的增長。
以手機領域為例,2017年人臉識別技術在智慧手機終端應用開始普及。iPhone X,華為、小米、OPPO、vivo等手機廠商都推出了帶人臉識別功能的智慧手機。艾媒諮詢分析師認為,計算機視覺領域內人臉識別功能可應用場景廣泛,商業化落地能力強,除了計算機視覺創業企業,網際網路巨頭和硬體巨頭企業也紛紛關注佈局人臉識別領域。
41.8%的受訪網民表示未來願意使用人臉識別技術進行手機及APP解鎖,同時有41.4%的受訪網民雖持觀望態度,但願意嘗試。此外,47.4%的受訪網民認為人臉識別將取代其他手機及APP解鎖技術成為未來主流。
CVPR上的得獎者
當然,我們的話題還是要回到此次的CVPR2018。
歷年通過的論文數
重點關注下最佳論文、最佳學生論文、經典論文的Longuest-Higgins獎
最佳論文題目:Taskonomy:Disentangling Task Transfer Learning
作者:史丹佛大學和加州大學伯克利分校的著名教授Jitendra Malik和Silvio Savarese。
一句話概述:本論文提出一種完全計算的方法來建模視覺任務的空間結構,可利用該結果來減少對標記資料的需求。
論文地址:https://arxiv.org/pdf/1804.08328.pdf
最佳學生論文題目:Total Capture:A 3D Deformation Model for Tracking Faces, Hands, and Bodies(完全捕獲:跟蹤臉部、手部和身體的3D變形模型)
作者:Hanbyul Joo,TomasSimon,Yaser Sheikh,均來自CMU
一句話概述:提出了一個統一的變形模型(deformation model),用於無標記地捕捉人體運動的多個尺度,包括面部表情、身體動作和手勢。
Longuet-Higgins 獎論文題目:A discriminatively trained, multiscale, deformable part model
作者:Pedro.Felzenszwalb(芝加哥大學),David.McAllester(芝加哥豐田技術研究所),Deva.Ramanan(UC Irvine)
一句話概述:本文介紹了一種用於目標檢測的判別訓練的多尺度可變形部件模型。
該論文發表於2008 年CVPR ,根據谷歌學術搜素引擎,這篇文章的被引次數高達 2075 次。
當然,大家關心的明星獎項,“PAMI 年輕研究員獎”(PAMI Young Researcher Award),今年授予了德國蒂賓根大學的 Andreas Geiger 和Facebook人工智慧研究所(FAIR)的何愷明。這個獎項重點授予那些博士畢業不超過 7 年並在計算機視覺方面有卓越研究貢獻的的年輕研究人員。
畢竟,何愷明是之前CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)最佳論文獎以及最佳學生論文獎的得者,可謂是真正的大神級的人物了!
PS:三大計算機視覺頂會了解一下?
CVPR的全稱是Internaltional Conference on Computer Vision and Pattern Recogintion,一年一度在美國本土舉辦,正如它的名字一樣,這個會上除了視覺的文章,還會有不少模式識別的文章,當然兩方面的結合自然也是重點。在本次的大會上,有3309 篇有效投稿,其中979 篇論文被接收。
ICCV的全稱是International Comference on Computer Vision, 由美國電氣和電子工程師學會(IEEE,Institute of Electrical & ElectronicEngineers)主辦,通常是在北美、歐洲、亞洲的一些科研實力較強的國家舉行,是公認的三個會議中級別最高的,兩年舉辦一屆。
ECCV的全稱是Europeon Conference on Computer Vision,每兩年開一次,僅限歐洲。作為歐洲的會議,一般比較看中理論,但近來也開始注重應用層面。