未來 5-10年計算機視覺發展趨勢

https://mp.weixin.qq.com/s/al58JbrJbVQabdE15Ca-8g

來源： CCF計算機視覺專委會

引言

計算機視覺是人工智慧的“眼睛”，是感知客觀世界的核心技術。進入 21世紀以來，計算機視覺領域蓬勃發展，各種理論與方法大量湧現，並在多個核心問題上取得了令人矚目的成果。為了進一步推動計算機視覺領域的發展，CCF-CV組織了RACV 2019，邀請多位計算機視覺領域資深專家對相關主題的發展現狀和未來趨勢進行研討。我們將研討內容按專題實錄整理，盡最大可能以原汁原味的形式還原觀點爭鳴現場，希望有助於激發頭腦風暴，產生一系列啟發性的觀點和思想，推動計算機視覺領域持續發展。

本期專題為“未來 5-10年計算機視覺發展趨勢”。各位專家從計算機視覺發展歷程、現有研究侷限性、未來研究方向以及視覺研究正規化等多方面展開了深入的探討。

主題組織者：林宙辰，劉日升，闞美娜討論時間： 2019年9月27日發言嘉賓：查紅彬，陳熙霖，盧湖川，劉燁斌，章國鋒參與討論嘉賓[發言順序]：謝曉華，林宙辰，林倞，山世光，胡佔義，紀榮嶸，王亦洲，王井東，王濤，楊睿剛，鄭偉詩，賈雲得，魯繼文，王亮文字整理：闞美娜，劉日升

開場：山世光、林宙辰

山世光：上次計算機視覺專委會常委會上，在譚院士的倡議下這次 RACV嘗試一下相對比較小規模的、以討論未來與問題為主的這樣一種形式。這次的RACV希望所有的發言人，都不是講自己的或已經做的工作，而是圍繞著每一個主題講一講自己的觀點和看法。大家在發言的時候可以無所顧忌，可以爭論。我們會有記錄和錄音，但最後的文字會經過大家的確認之後才釋出。

林宙辰： RACV是希望大家有一些深入的研討，互相挑戰，以達到深入討論的目的。第一個主題是未來5-10年CV的發展趨勢。希望我們這次研討會尤其是CV發展趨勢這個主題能夠類似達特茅斯會議，產生一些新的思想。

嘉賓主題發言

1. 查紅彬

未來五年或十年 CV的發展趨勢是很難預測的，有時候想的太多，反而容易跑偏。所以，今天我主要從自己認識的角度說說後面我們該做些什麼樣的事情。

首先，說說什麼叫計算機視覺？我這裡給了一個比較嚴格的定義，即使用計算機技術來模擬、模擬與實現生物的視覺功能。但這個定義並沒有將事情完全講清楚，這裡把計算機和視覺兩個概念揉到了一起，但到底什麼叫計算機、什麼叫視覺並沒有說。什麼叫計算機大家是能夠公認的。但什麼叫視覺，其實在計算機視覺領域裡還沒有一個大家都認可的定義。

我們不妨先看看現在計算機視覺領域裡有哪些研究內容。先來看看今年 ICCV各個分會的關鍵詞，其中最大的幾個領域是deep learning；recognition；segmentation, grouping and shape等。這些領域是視覺嗎？說是影像處理、分析與理解也能說的通。關鍵問題在於，我們講來講去到底是不是真的在做視覺？這點有必要再想想。舉個例子--人臉識別：人臉識別現在能識別大量的人臉影像與影片，幾十萬、幾百萬人都能夠識別。它是用大資料驅動的方式來達到目的的，而且是離線學習的。但識別演算法在實際應用中對光照、遮擋等的魯棒性比較差。我們回過頭看看人的人臉識別有些什麼樣的功能呢？我們人識別人臉的功能很強，但只能識別很少數量的人臉，如親戚、朋友、同事等，超過一定範圍之後人是很難識別出來陌生人的人臉的，我們能看到有差別但分不清誰是誰。第二個，人是在生活情景當中進行主動性的樣本學習。我們之所以能夠認識親屬，是因為我們在日常生活當中與他們生活在一起，建立了各種各樣的關係。我們主動地用樣本來學，利用了不同層次的特徵。所以，儘管我們識別人臉的數量少，但是我們對抗干擾的能力很強。所以我覺得這是人的人臉識別和現在機器的人臉識別之間的差別。也就是，人的視覺中的人臉識別有它明顯的特點，它能很好地應對現實環境中的視覺處理任務。

那麼現實環境中的視覺處理應該考慮哪些因素呢？我們有計算機、機器人這些智慧機器，同時還有其它兩個關鍵的部分。第一個部分是要透過視覺這個介面來同外部世界建立聯絡，同環境進行互動；第二個是我們講視覺的時候，生物的感知機理給我們提供了很多依據。這其中，我們要應對的是現實環境的開放性，以及三維世界的複雜性，我們要面對場景當中很多動態的變化以及層次性結構的多樣性。

另一方面，生物的感知機理有什麼呢？它是一個學習過程，但這個學習是柔性的，並不是我們現在這樣的離線學習並固定的方式。我們現在的機器學習用起來就只是測試。但我們人的學習中測試和學習過程並不是嚴格可分的，它有結構上的柔性，也需要層次化的處理。此外，它有主動性，能夠根據它的目的和任務主動地進行學習。同時，我們日常生活當中所需要的是一種時序資料的處理，是一種增量型的處理過程。從這樣的角度來看，我們將來的計算機視覺研究需要考慮把真實環境的特點與生物的感知機理融合進來。這樣就會更接近“視覺”這個詞本來的意義。

那這其中有哪些事情我們可以去考慮呢？首先是學習的問題。現在，深度學習用的很多，但它只是我們人的模式識別當中的一部分功能，對於視覺研究來說，還有很大的挖掘空間。也就是說，我們考慮計算機視覺中的機器學習的時候，不僅僅是深度，還要把網路的寬度、結構可重構性與結構柔性結合起來。我們要把不同的結構層次研究明白，同時把不同模組之間的連線關係考慮到網路裡來。我們人的大腦就是這樣的，大腦從視覺的低層特徵抽取往上，它具有很多不同的功能性結構在裡面，而且這個功能性結構是可塑的。其次，除了通常講的識別功能之外，我們要把記憶、注意等一些認知機制透過學習的方式實現出來。目前已經有一些這方面的工作了。將來這些機制在計算機視覺裡面可能會作為學習的一個核心目標，融到我們現在的整個體系當中。另外，還應考慮透過環境的互動這種方式來選擇需要的樣本進行自主學習等。所以，這種學習方式上的結構柔性應該是我們追求的一個目標。

另外一點，我們現在的計算機視覺還比較缺乏對動態場景的處理。我們現在很多工作是在靜態場景裡面，像人臉識別也是在靜態場景裡面來做。儘管有時候我們用影片來做，但並沒有深入考慮整個場景的動態特性。現在動態目標的跟蹤、檢測、分析、行為的識別與理解等這些工作都有在做，但還沒有上升到一個系統化的水平。我們也應該把更多的注意力放到像移動感測器的定位、三維動態場景的重建與理解等一些事情上面來。所以，我認為動態視覺是未來的另一個重要研究方向。

還有一個是主動視覺。主動視覺是把感知與運動、控制結合起來，形成一個閉環。計算機視覺裡很早就有一個研究課題，叫視覺伺服，是想把控制和感知很好地結合起來。我們的感知一部分是為任務目的服務，另外一部分是為感知本身服務，即從一種主動控制的角度來考慮感知功能的實現，以提高感知系統的自適應能力，遷移學習、無間斷學習或終身學習等都可以應用進來。此外，還應當考慮常識、意識、動機以及它們之間的關係。也就是說，我們要把視覺上升到有意識的、可控制的一個過程。

如果我們把前面提到的時序與動態處理等結合起來之後，應該更多考慮線上學習。我們不應該全部依賴目前這種離線學習、僅使用標註資料，而是應該在動態的環境當中，根據運動與動態資料流本身的特性來做預測與學習。這樣可以把前面提到的記憶與注意力等一些機制結合起來，最終實現一種無監督的線上學習系統。這樣一來就能把現實環境中的一些特點與變化考慮進來，形成一套新的理論。而這個理論，跟現在的深度學習、影像處理分析與理解等相比，會更接近我們講的視覺這個概念。

2. 陳熙霖

預測可見未來是一件風險極大的事，對於這個命題作文我只能說個人的觀點。我更願意從歷史的角度來看這件事情。首先，我們回顧一下計算機視覺的發展歷程。我把過去幾十年的過程分為以下幾個階段。第一個階段我稱之為啟蒙階段，標誌性的事件是 1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個本科生做的手眼系統。這個階段對計算機視覺的估計過於樂觀，認為這事太容易了，很快就可以解決，正如S. Papert的報告中寫到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發現這個問題遠比想象的困難。

從七十年代初期開始進入第二個階段，我稱之為重構主義，這是以 D. Marr的視覺框架為代表的。這個框架在Marr的總結性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切物件恢復到三維表達。其基本過程是：影像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(2.5D skecth)à以觀察物件為中心的3D表達。這個過程看起來很漂亮，但卻存在兩方面的問題——首先是這樣的過程是否是必須的，其次是如果都試圖恢復三維，這樣不論對感知測量還是計算是否現實。我個人認為三維在計算機視覺中的作用也是有限的。這個階段的工作也導致了上世紀90年代初對計算機視覺研究的反思和爭論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。

第三個階段我稱之為分類主義，反正只要能識別就好，不管白貓黑貓抓住老鼠就好。人臉識別、各種多類物體識別等都在這個階段大行其道，研究者們採用各種各樣的方法，從研究各類不變運算元 (如SIFT、HOG等)到分類方法(如SVM、AdaBoost等)。這個階段推進了識別問題的解決，但似乎總差最後一公里。

最近的一個階段我稱之為拼力氣比規模階段，其核心是聯結主義的復興，這得益於資料和計算資源的廉價化。這類方法在各種分類問題上似乎得到了很好的解決。但這些方法背後缺少了很多研究需要追求和思考的東西，過去我們都在講找一個美妙的辦法。如同我們希望瞄準目標，以最小的代價擊中目標。現在這類方法更像是炮決，今天我們似乎進入了這樣的炮決時代。

那麼未來會是怎麼樣的？從前面的發展歷史來看，計算機視覺經過幾十年的發展進入了野蠻人的時代。什麼叫進入野蠻人的時代了？今天大家說人工智慧熱，可幾乎所有拿來驗證人工智慧的例子都是和計算機視覺相關的。而今天很多所謂的計算機視覺研究就是拿深度學習訓練一個模型，所以說這是個野蠻人的時代。那麼野蠻人時代有什麼問題？我們看上一個和野蠻人時代相關的歷史——羅馬帝國。羅馬帝國是被野蠻人消滅的，羅馬（更具體的是指西羅馬）從建國到被滅亡，中間大概有 500年。而且西羅馬被滅了以後，還有一個叫神聖羅馬帝國，按照尤瓦爾·赫拉利《人類簡史》上的說法後者既不神聖也不是帝國。當年羅馬帝國也是所有的東西都講究漂亮美麗——鬥獸場、引水渠以及打到哪修到哪的條條大路(通羅馬)。計算機視覺早年的研究者也是天天追求漂亮，要數學上美、物理上美等等，就和當年羅馬帝國一樣。現在也真的和羅馬帝國一樣了，我們遇到了蠻族人。這個蠻族人是誰？就是深度學習，和過去羅馬人關心文明，蠻族人關心財富一樣，在計算機視覺的研究上，我們也面臨著如何選擇的問題。當然，歷史也會驚人地相似，蠻族人佔領羅馬以後也不是什麼都沒幹。後來他們建立神聖羅馬帝國，到後來導致文藝復興。今天計算機視覺的研究在我們看來也需要一個文藝復興。什麼是我們的文藝復興？我們當下的計算機視覺就處在這麼一個需要思考的時期。而不是一味地倒向深度學習。現在有些研究走向比蠻力的階段，就跟打仗比坦克、大炮的數量一樣，靠拼GPU的規模和計算能力。下一步，我們需要往哪裡走？這是現在這個野蠻人時代需要思考的。

預測未來五到十年這是一個風險極大的問題。所以我只能透過前面講的歷史和我的一點思考談談對未來的一些可能。

首先，一個值得關注的未來趨勢是從識別到理解，套用古人的說法就是從知其然到知其所以然。過去十多年計算機視覺在識別方面取得了顯著的進展，但是現在的識別遠遠不是我們所期望的識別。例如你教它識別一個杯子，它不會想到杯子和水有任何關係，不會想到杯子有任何的其他功能，因而完全是填鴨式的。今天的識別遠遠不是可解釋的。談到可解釋，我認為在計算機視覺領域的可解釋應該是對結論的解釋，而不是解釋網路行為，前者應該更有價值。那麼要解釋這一切靠什麼？應該是靠某種形式的邏輯關係，這種關係可以透過語言表達，語言應該起到橋接作用。這裡的語言和自然語言有關係也有區別，可以是獨立於我們自然語言的，是機器自己對世界理解的語言。換句話說，我們把世界的物體重新編碼起來，然後把物體和物體，物體和環境的聯絡建立起來就好。有了這樣的從基本屬性到物件直至環境的關係，就有可能實現從知其然到知其所以然。所以我覺得未來最重要的趨勢就是從無需知識支撐的識別到需要知識支撐的理解，或者說從單純的 Bottom-up的識別到需要知識啟發的具有反饋、推理的更廣義的計算機視覺，這也是我自己這幾年特別關注的研究方向。

其次，值得關注的一個趨勢就是對空間感的有限需求。關於為什麼動物需要視覺，主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識別能力；其次是保證不會因為對空間的錯誤判斷而造成意外傷害 (摔倒或者撞擊等)。視覺最重要的就是解決這兩件事情。那麼為什麼講對空間感的有限需求？我們的三維空間感，只是在相對比較近的時候，才需要很精確。在距離稍遠一點的情況下，大多數時候其實不關心精確的空間位置，而可能關心一些如遮擋、順序等關係。另外，如果你試圖把一切物件都用三維來表示的話，不管是從計算的代價還是從可實現性來講都很難。試想恢復一個一米遠處的物件，可以做得很精確，而對於一百米或者更遠的物件，如果希望保持相同的量化精度，對深度值的量化就會成問題。這就是說的有限需求的含義，但是我覺得這件事情一定很重要，特別是在較近的時候。

第三個值得關注的趨勢就是不同模態的結合，即所謂聰明合一，人的聰明離不開耳聰目明。這裡的模態不僅僅限於視聽覺，還可以包括不同的二維、三維的視覺感測資訊等。生物的感知從來不是僅靠單一模態的。在多模態中需要解決好的一個問題是不同模態間的對齊與因果問題。如果同時存在從多個模態獲取的資訊，時空對齊是非常重要的挑戰。與時空對齊相關的另一個問題是因果關係，雖然我們希望獲得因果，但絕大多數時候得到的僅僅是關聯，兩個現象之間可以是第三個因素導致的，如同雲層間放電導致電閃和雷鳴，這兩件事是關聯的，但絕不是電閃導致雷鳴。在絕大多數情況下我更傾向於去探索關聯而不是因果，特別是在資料驅動的模型下，離開機理試圖發現因果是困難的。但在未來的計算機視覺研究中不同模態的結合和關聯是一個重要的趨勢。

第四個需要關注的趨勢是主動視覺，所謂主動就是在視覺系統中納入了反饋的機制，從而具有選擇的可能。視覺如果僅僅以獨立的形式存在，則不論是從感知所需的精度、解析度以及處理的能力都需要成指數規模的增加，生物視覺由於有了主動選擇的機制，因而在視野、解析度、三維感知與能量消耗方面得到了很好的平衡。當計算機視覺的研究不僅僅是為了驗證某個單一的功能時，上述生物視覺的平衡一樣需要在計算機視覺系統中考慮，實現從感知、響應到行為的閉環。從被動感知走到主動的感知，這是從演算法到系統的一個重要趨勢。將視覺的“看”與“響應”和“行為”構成廣義的計算機視覺系統，透過有主動的“行為”進行探索，實現“魂”和“體”的合一。這對視覺應用系統是至關重要的——例如一個經過預訓練的服務機器人，可以透過在新環境中的主動探索，實現整體智慧的提升。所以我認為這是未來視覺應用系統的重要趨勢。

我沒有講具體的演算法哪些是重要的。我想說一件事情，就是關於深度學習，我覺得未來深度學習就會像今天計算機裡看到的暫存器、觸發器、儲存器乃至 CPU一樣，成為基本構件。關於趨勢，延續前面的劃分，計算機視覺將進入一個知識為中心的階段。隨著深度學習的廣泛應用，計算機視覺系統將不僅處理單一任務。在複雜視覺任務的處理中，主動視覺將起到重要的作用。透過主動的響應和探索，構建並完善視覺系統對觀察世界的關聯(因果)關係並藉此理解空間物件的時空關係、物理屬性等。這算是我對今天討論問題的個人預測。

3. 盧湖川

剛才前面兩位老師已經提綱挈領的提了一些觀點，我可能有一些和他們是相似的。

從理論方面來講，我覺得目前深度學習的理論好像有點走不太動了。具體來說，從 Backbone的發展來看，網路結構的設計，基本上沒有更多新的內容。另一方面，某些領域還是比較熱門的，發展比較快。比如說自然語言處理（NLP）和視覺的結合，這幾年取得了很多進展，特別是聊天機器人等相關的實際需求，驅動著VQA等技術都有較大的進展。尤其是基於圖的方法和視覺結合在一起可能會越來越熱。以知識圖譜為例，如果知道一些先驗知識，知道一些知識圖譜的話，可能會更好的去理解影像或者影片。例如，給定一幅影像，裡面有一隻貓和一個魚缸，貓用爪子抱住了魚缸，還盯著魚缸裡面的魚，如果我們知道知識圖譜裡貓和魚的關係，我們就能很好的描述出貓想吃魚缸裡的魚，從而更好的幫助視覺理解影像或影片裡目標和目標之間的關係。所以說，我覺得基於圖或圖譜的方法和視覺結合在一起未來幾年會有更大的發展。

第二方面，我覺得三維視覺會繼續快速發展。從前兩年開始冒頭，到現在已經較為火爆，不僅僅侷限於三維場景重構等領域，最近基於三維視覺的檢測與分割等都有一些優秀的工作湧現。隨著基於各種各樣的嵌入式裝置和手機端的需求，像華為手機已經有三個背面的攝像頭，甚至多個攝像頭（它的三個攝像頭的定義，一個是超廣角的，一個是廣角的，另外一個是高精度的攝像頭，不同的解析度，可以更多的去模仿人的視覺方式）。由於人觀測世界本身是三維的，所以移動端的這種大量的應用會牽引著三維視覺在這方面越來越走向更深入的發展。

第三方面，最初我們提到深度學習時，通常都會說手工設計的特徵（ handcrafted feature）有各種各樣的不好，而深度學習是一個端到端的網路。實際上，深度學習的網路結構也是手工設計的（handcrafted）。目前，網路結構搜尋NAS興起之後，我覺得在這方面可能會有更多的一些改善，能夠把一些常規的操作，包括一些常規的模組都融入進去，來不斷最佳化網路結構而不是手工設計（handcrafted design）。我覺得未來幾年在這方面，甚至包括網路結構的壓縮和裁剪方面都會有更多的進步。

第四方面，深度學習興起之後，我們看到誕生了一大堆的資料集，並且都是有 ground truth標註的資料，在其驅動下，深度網路達到了一個比較好的效能，目前絕大多數的資料集在效能方面基本上也趨於飽和了，但是距離實際問題仍然有較大的距離。另一方面，人對世界的認知基本都是小樣本學習的結果，和目前的大資料驅動的模式不太一樣。所以能否將當前大資料驅動的方式和人參與的方式結合起來？現在也有很多這樣的論文來研究人主動參與的或者是human in the loop的學習方式，可以把人對ground truth的主動標記結合起來，引導快速的學習，甚至把效能提高到一個更高的高度。

第五方面，影片理解在前幾年開始有初步的發展，特別是到這幾年有更多的需求和深入的趨勢。因為現在基於影像的所有任務做到一定程度之後可能都做不動了，或者說沒有更多的花樣了，那麼對影片的各種理解越來越多，包括影片摘要、影片場景分類、廣告識別、臺標識別等等，很多這方面的應用，我覺得未來幾年會有更長足的發展。

我覺得在主題（ topic）方面，未來會有更多的發展領域。隨著剛才陳老師說到野蠻人的時代來了，大家參與視覺研究的熱情很高，不光是學術界，產業界對這種需求也是非常巨大的。因此我覺得目前深度學習領域，視覺會在各個行業縱深發展。舉個例子，這兩天有一個公司提出這樣的一個需求，即鞋印踩上去之後，希望能識別是哪個犯罪嫌疑人來踩的，這個就是足跡識別。進一步，他們想透過這個足跡來判斷這個鞋的鞋面是什麼樣的，是什麼牌子的。然後透過這些線索進而去庫裡搜尋比對，搜尋完了之後，再去影片裡面去找犯罪嫌疑人，即穿這種鞋的人到底是誰。這個過程中，一步一步的從源頭開始到後面，形成了一系列的視覺問題，行業的這種縱深發展需求是無限巨大的。視覺裡面還有很多之前沒有想到的事情在不斷進步，兩天前我參加了工業機器人展，看到有一個撿包裹的機器人。我們都知道快遞小哥要送了一大堆包裹，各種各樣的包裹都有，能否在包裹車拉來一車包裹後，讓機器人去分類呢？我在展會上看到就有這麼個機器人，它會自動的去識別是什麼樣的包裹，而且知道它的三維的曲面是怎麼樣，因為包裹放的角度都完全不同，它會調整機械臂，適應包裹的三維曲面的法線方向，去吸附它。我感覺在不同行業實際需求下，像分割、三維建模等視覺技術都會快速在各個行業裡得到深入的發展。

另外，我覺得在醫療影像方面也會有很大的進展。醫療影像現在更多的是各個疾病的檢測。昨天跟一個醫療單位在一起交流，他們提供了一個很大的平臺，它的最終目標是透過病人的不同模態的資訊，來最後綜合判斷病人到底是什麼樣的病。不僅僅是關注醫學影像資訊的，還有一些其他的一些檢查結果，其實是一個跨模態的融合，包括影像標註、病案標註等等，他們都使得醫療影像未來和視覺的結合會越來越緊密。

目前 5G不光是速度快容量大，它其實給計算機視覺AI帶來了一個更廣闊的前景，特別是無人車方面，剛才幾位也提到了三維的地圖等。跟中國移動交流了之後，發現他們的高精度地圖，可以透過5G頻寬實時傳輸，是可以看到馬路崖子這種釐米級的精細度。所以我覺得5G+AI會為我們視覺相關領域的發展帶來巨大的機會。以上就是我對未來5-10年視覺發展趨勢的一些理解。

4. 劉燁斌

我主要圍繞三維視覺、虛擬現實和人工智慧的發展談點想法。虛擬現實是 2016年火了之後一直髮展比較平穩。2018年XISHUJI有過關於虛擬現實的重要性的指示，虛擬現實技術改變了未來的互動方式，主要是這種人與環境、人與人之間的互動方式可能會變得更加自然簡單，並且取代鍵盤、手機觸屏等現有的功能。

三維視覺的趨勢是做視覺資訊的重構，提供三維的內容給虛擬現實，這個是三維重建，三維虛擬現實透過真實渲染能夠產生很多資料，為視覺問題服務。很多視覺問題皆有資料驅動，資料如何得來，越來越多的部分時透過三維引擎來得到。計算機視覺的研究物件有好幾類，室外的、室內的、包括人體人臉還有手，還有一些醫學和生命物件。以人為本是計算機視覺的核心，所以我主要以人作為視覺研究物件，舉例說明計算機視覺的發展趨勢。

從人為研究物件的角度，虛擬現實有三個目標，也即三個 I，一個Immersion，一個Interaction，一個Imagination。三者都是虛擬人（AI、機器等）和真實人之間的作用關係。首先，虛擬人在視覺外觀上是真實的，未來的虛擬人不管是真實做出來的機器人還是儲存在計算機中的，都有逼近真人的發展趨勢，使得互動更加友好。而這個目標，本質上就是人體的三維重建。第二個要素是人機的互動，虛擬人一定要能感知真實人的行為，包括手勢識別，行為識別，情緒等這樣的一些理解。最後，虛擬人需要對場景有反應，能夠智慧化，他能夠根據你的行為智慧地做下一步的處理，保證產生一個真實的虛擬人。

總體來說，虛擬現實的智慧建模技術被列為新一代人工智慧發展規劃裡的八大關鍵共性技術，重點突破虛擬物件智慧的行為建模技術，提升虛擬現實中智慧物件行為的社會性、多樣性、互動逼真性，實現虛擬現實和擴增實境等技術與人工智慧的有機結合和高效互動。上述定義中的重點是行為建模，行為必須是接近人的智慧的行為，才能有互動的逼真性等等。圍繞這個人體的建模，目前的目標一個是要精準的重建，第二是要規模化的採集，第三是要行動式（手機單影像也能做），第四是速度足夠快，能夠響應互動的要求，第五就是現在一個大的發展趨勢，建模的結果含有語義資訊，即語義化建模，包括服裝，人臉，頭髮等。最後第六就是智慧生成，即重建結果能真實動畫展示。現有的三維視覺重建技術很難滿足這六個方面的要求，所以圍繞這些目標還有很多研究需要做。

人體重建主要目的之一是全息通訊。這裡展示微軟做的 holoportation系統，它實現實時的，多相機下的人體動態三維重建。但這個系統的缺點是，它要求具有主動光，導致系統複雜度高，實時性和便捷性成為矛盾。實現實時高精度三維動態重建，也是未來的一個學術研究趨勢。我們研製的單個深度相機實時的重建，雖然速度和便捷性都趨於完美，但精度還有待提高。單影像人體三維重建，雖然現在的質量還不算完美，但我覺得這是一個很實用的技術應用趨勢。透過單個影像我們就可以來簡便地重建它的三維模型，未來肯定是能大放光彩的。單影像人手動態三維重建，透過單個RGB監控相機就可以來實現實時性，可以看出三維重建輸出了語義資訊，已經取代了傳統二維計算機視覺識別問題成為發展趨勢。

服裝產業佔據國民生產總值的 6%，數字化服裝是一個非常重要的計算機視覺應用之地。這個是展示我們最新做的一些事情，透過單個影片，可以網上的影片，就能透過語義的建模來實現比較高質量的服裝三維建模，對一些VR、AR都可以應用，它是透過對人體和服裝的解耦，語義資訊的加入，包括光照和紋理的解耦來實現。這種東西未來可以產生一些應用，包括改變體型，包括擴增實境的模擬，右邊就是一個網際網路影片的重構，它可以改變服裝的顏色等等。我覺得這種便攜實時的三維重建的趨勢就是從低層次的三維建模，包括體素的、網格的，逐漸走向高層次的三維建模，包括部件級的重建、物理資訊分離、感知物理動力學、特徵空間的提取。這些高維資訊能夠智慧地建模和生成，響應環境，控制和預測。包括圖形學裡做的一些研究，好玩的比如能讓一個人去動的虛擬物件的這種物理的約束，包括我們自己去爬山這種擴增實境的技術也會引入進來，把物理、智慧響應引入進來。

最後再談談更有廣泛意義的一些動態三維重建問題。例如，醫療方面的比如外科手術的術野場景的三維感知，就是個非剛性複雜動態場景的三維建模問題。這是展示肝臟手術的影片，能夠動態跟蹤它的形狀，三維掃描的 CT可以在動態的場景下實時非剛性對映，輔助醫療和手術。還有就是在生命科學領域的動物行為三維重建，我覺得動物是未來視覺的一個很大的可以應用的點，我們叫計算行為學，也叫神經行為學。它研究的是行為跟神經活動的對映關係，透過採集動物行為資料來進行分析。行為學上對人進行分析非常難，因為人的基因差別非常大。但對於動物來說，可以做到每個小鼠基因都是一樣的，像譬如在豬、猴子上也比較容易控制一些其他的差別的因素，所以對醫療，包括基因控制都會有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關的文章。它這裡面其實有很多問題，包括群體物件自然環境下的互動，非剛性的捕捉，高層語義檢測，互遮擋三維恢復，時間序列分析，有很多研究發表在Nature上。動物行為三維重建研究趨勢就是希望動物更加自由地在實驗環境裡去生活，被記錄，藥物干預後提早發現行為差別。這樣的研究還是很多的，包括可以提取維度更高的特徵。我們也是在做這樣一些研究，這裡面有四個小豬，有兩個是有漸凍症的，我們透過多視點拍攝，希望重構三維小豬的動作，透過重建動作來識別漸凍症小豬的行為特點，對未來的基因調控和藥物治療帶來幫助。

5. 章國鋒

幾位老師已經從計算機視覺大的層面對未來 5-10年發展趨勢做了展望，我從我熟悉的三維視覺和AR方面對未來5-10年的發展趨勢發表一下自己的看法。

我的研究方向主要是 SLAM，所以我就先從SLAM的角度做一些發展趨勢的展望。我們都知道視覺SLAM是很依賴特徵的，未來SLAM技術的發展趨勢必然會從以前的底層特徵比如點、線、面，向高層特徵比如語義、文字、物體等趨勢發展。並且，現在已經有一些提取運動規律的工作比如人的步態規律、機器人和無人車的運動規則等等，來進一步提高定位的穩定性。

有一個趨勢是朝著多感測器融合的方向發展，其實每個感測器都有著它的優點和缺點，那麼最好的方法就是把這些感測器的資訊都融合起來，比如說隨著深度相機的流行，一些手機上都安裝了深度攝像頭，還有 Wifi、藍芽、地磁訊號等等，把這些訊號都融合起來肯定可以提升定位的穩定性。未來還會有更多型別的感測器出現，比如這幾年新出來的事件相機、偏振相機，相信未來5-10年還會有一些新的感測器出來。透過多感測器融合，我相信SLAM技術會做的越來越精準和魯棒。

還有一個趨勢就是隨著 5G時代的到來SLAM會朝著雲和端結合的趨勢發展，比如說現在高精度地圖的構建是放在雲上，並且支援動態的更新。這就很自然地涉及到移動端上的SLAM和雲上的高精度地圖如何做緊耦合，如何利用語義地圖的資訊來更好地定位，不同終端如何協同來做SLAM。

現在主要是深度學習的時代，對於 SLAM來說，目前已有不少基於深度學習的工作，相信未來還會有更多這方面的工作湧現出來，比如如何學習一個更好的特徵，如何學習更好的策略去解決SLAM中手寫規則的困境，可能還會有做得很好的端到端的位姿學習。還有一個非常重要的就是語義資訊的融合，比如說，結構的資訊怎麼跟語義資訊做更好的融合，就像人眼一樣看世界。我覺得這是未來的一個發展趨勢。

以上是關於 SLAM方面的。然後，三維重建，劉老師前面已經討論得很多了，尤其是動態場景的重建，我這裡稍微再做一點補充。我覺得未來物體的三維掃描方面，一些行動式、移動式的RGBD感測器會越來越流行，比如說基於結構光和ToF的深度感測器，未來我相信還會有一些新的感測器出現，可以幫助實現實時高效的三維重建。這裡重建的不只是幾何和紋理，還包括材質、語義等等。基於照片/影片的三維重建技術未來幾年也還會有一些進展，比如實現更高的幾何精度和紋理，能得到更細粒度的語義，並且結合分散式平臺的算力實現更高效的重建。

在大規模場景的三維掃描方面，目前基於相機拍攝的影片或者照片已經可以做到城市級場景的三維重建。一般都是透過無人機航拍，然後重建出來。如果進一步結合深度感測器（比如 Lidar），相信可以實現更高精度的場景構建。再結合分散式平臺的計算能力，實現整個城市甚至整個地球的完整三維地圖的重建將不是問題。當然只是靜態場景的重建還不算太難，更難的是怎麼實現動態物體的重建和場景的動態更新，因為真實的世界不是靜態的，而是動態變化的。我覺得未來可能會透過相對低成本比如多感測器融合的方式來實現四維的場景地圖的動態更新。包括前面講的透過三維掃描獲得的物體模型可以註冊到真實世界的三維地圖中，來實現三維資訊的共享和傳遞。

然後，我想談一下識別和重建的關係。識別和重建未來 5到10年會往更深層次的融合。目前三維重建基本上是bottom-up的方式，對先驗知識的利用不夠充分，未來5-10年可能會誕生top-down的方式，比如說先識別後重建，或者兩者同步進行。識別能夠提供更高層次的結構先驗，反過來重建能夠幫助做更好的物體識別，因此未來會更加緊密的融合。另外，也還需要深度學習和幾何最佳化演算法的融合，才能最終構建出兼具幾何外觀、語義資訊、結構化的、可動態更新的3D場景表示。

另外，因為我本人一直在做 AR方面的應用，所以也想談一下關於AR/VR、AI和三維視覺協同發展的趨勢。其實AR主要是AI和三維視覺的應用。這三者如果能夠緊密協同發展，那麼我相信未來五到十年就可以實現一個地球級的現實世界的數字化。左邊這個圖是華為前不久提出的Cyberverse數字現實技術，它主要是透過相機、Lidar等感測器對真實世界進行掃描並構建高精度地圖，然後基於高精度地圖來實現室內外精準的定位和導航以及各種AR效果。Cyberverse實際上也不是一個完全新的概念，Magic Leap在2018年就提出過類似的概念Magicverse，旨在將大規模物理世界和數字世界持續地融合在一起。如右圖所示，Magicverse包括好幾個層，主要兩種型別，一類是叫做基礎層（包含物理世界和數字世界），還有一類叫空間應用層。基礎層最底下是物理世界，然後在物理世界上構造一個對應的數字世界，然後再上面就是空間應用層，包括流動性、能源與水、健康與保健、通訊、娛樂等。

要實現這樣一個數字化的現實世界，最關鍵的一點就是對物理世界進行三維數字化，也就是如何對高精度地圖進行採集、構建和更新。我相信未來必然是朝著多模態、多感測器採集和融合的方式發展，因為每個感測器都有著它的優點和缺點，需要融合互補。這裡最難的問題可能是怎麼進行動態更新。我相信眾包式的採集和更新是實現這個目標的有效方式，可以實現低成本、高頻次的更新。高精度地圖除了三維還應該包括語義資訊，因此語義資訊的提取也是非常重要的，而且需要滿足不同應用的語義資訊，比如說定位、 AR/VR的展示、行為分析等等。這就要實現不同粒度語義資訊的提取，這裡面的粒度可以大到整個商場，再到一個門店，再小一點就是一個商品。除了物理世界的三維數字化，還需要對人的行為進行數字化，運動行為、消費的行為、社交行為等等。

對於這樣構建的人的行為也好、三維空間也好，再結合 SLAM、AR技術，我們可以實現地球級的AR應用。當然，這裡首先需要解決雲端的高精度地圖怎麼與終端SLAM緊耦合，這樣才能夠實現長時間大範圍的精準定位和高品質虛實融合。松耦合模式會有一些缺陷，誤差累積會很快，穩定性也不夠好。基於這樣的一種方式，我們可以實現室內外的分米級甚至到釐米級的定位和導航。

另外，我們知道 5G時代很快就要到來了。目前的AR計算還主要是在終端，比如手機、AR眼鏡等。未來有5G的情況下很多計算都可以放到雲或邊上，對終端的計算要求相對弱化，終端未來更多的是提供資料採集、連線和顯示的能力。因為有云端算力的加持，高品質的AR效果可以得以實現，比如高逼真的物理效果模擬，準確的遮擋效果和虛實互動，精準的光照估計和電影級的真實感繪製與虛實融合效果就成為可能。在5G時代，一方面傳輸速度非常快，另一方面有云端算力加持，未來應用APP甚至都不要預裝，我們開啟一個APP就像在瀏覽器上輸入網址或電視機上切換頻道一樣便捷。

以上是我對三維視覺和 AR方面未來發展趨勢的看法，供大家參考。

專家討論發言

謝曉華

我感覺我們是不是忽略了一點，就是硬體發展。例如我們之前做超解析度，做了很多，但是後來高畫質相機一出來，很多工作就白做了。那會不會在未來的十年範圍內視覺感測器這一塊會有比較大的突破，然後剛才提到的一些工作就沒有必要去做了。

林宙辰

我想說一說什麼樣的計算體系適合做計算機視覺？現在我們都是基於馮諾依曼體系，但是人的視覺處理過程跟馮諾依曼體系有很大的差別。如果是在新型的計算平臺上面，是不是很多計算機視覺的問題能更好或更高效的解決，我覺得是可以探討的。另外一個，我贊成主動視覺和線上學習。我覺得現在的視覺系統觸碰到了一點是，每個人都是 from scratch，這樣的話精力有限你就只能做一個非常簡單的任務。我覺得將來可以做一個像wiki一樣的專案，全世界都可以貢獻，這樣的話大家都在共同構建一個統一的系統，而且這個系統可以利用網路上的所有資料，可以自我進化（evolution）。然後這個系統大家都可以公用，這樣就可以解決每個人的系統不停的從頭學習的問題，因為單個人做的話只能做很小的一部分。

林倞

我想談一談關於 benchmark或者關於AI的評價系統或者CV評價系統的好壞的基準。因為我認為我們很多的研究是受這個基準所驅動的，或者說是跟這個benchmark是相互驅動的。現在CV的趨勢是融合、協同等，那麼未來我們可能會需要一種新的評價體系來看CV的狀況，可能不需要在一個特別的識別問題或者分割問題上達到特別高的精度，但是我們同時接入理解、分析、可解釋性等，這樣才能評價一個AI或者CV系統的魯棒性，更像人一樣的而不是把它歸類為一個分類問題或者重建問題，我覺得這個可能是我們要很具體的去討論和去發現的問題。

山世光

我們討論十年後視覺可以發展到一個什麼樣的水平，可是我們並沒有定義清楚，我們該如何從總體上度量視覺智慧的進步，比如說現在視覺智慧水平是 60分，十年後我們可以做到80分，這個沒有明確的標準。包括什麼是視覺理解、影像理解，怎麼定義呢？比如我們做人臉識別，很清楚，就是以某個資料庫上的識別率為準。可是作為一個general的視覺我們好像沒有這樣的一個標準。

另外，作為一個標準的 benchmark的角度來說的話，是不是人的視覺也是分兩種，一種是通用的視覺，一種是專用的視覺。比如我們普通人看不懂醫療影像但專業醫師就可以，但是我們都有通用的視覺的能力。這兩類視覺實現的路徑是一樣的還是不一樣的？

還有一個就是剛才提到的十年後我們可能把地球都數字化了，但是這個數字話不見得是個簡單的數字化，比如是地圖化的，那地圖化的話對我們做視覺的有什麼樣的幫助呢？我覺得是不是類似於出現了一個視覺智慧測試的“靶場”，我們的很多東西都可以在這個“靶場”裡去測試。例如很多做自動駕駛的系統初步的訓練都是用的合成的模擬資料。那麼也許我們有了一個很好的關於地球的數字化模擬的時候，我們就有了一個很好的視覺的“靶場”，這個“靶場”既可以做訓練也可以做測試。

此外，要不要做視覺常識？大家都在說知識，我覺得知識這個體系如果沒有常識，感覺有些空中樓閣。我們做視覺先得有視覺常識，有常識才有可能有所謂的理解，我不知道是否正確，我覺得這個問題可以討論。

陳熙霖

關於理解的評價問題，我們可以想想人是怎麼做的。對於人類形成體系的知識我們確實有 benchmark，確實有考題。可是對人類探索中的知識是沒有考題的。大家理解的知識最後形成一個公共認可的交集，最後逐步擴充。所以，我個人認為在未來的推動理解的研究中，benchmark不能沒有，但是不能唯Benchmark。如果說過去近30年中Benchmark推動了計算機視覺的發展，今天可能成為束縛了計算機視覺發展的一個因素。我經常跟學生為此爭論，一些學生認為離開可評測資料集的工作就不是研究。而對真正智慧的研究可能就是沒有Benchmark——沒有最聰明，只有更聰明。對於場景理解一類的任務而言，一個機器可能發掘出100組關係，另一個機器可能發掘出300組關係，那後者的理解能力可能就超越了前者，如果前者的關係是後者的真子集，那後者就一定具有更強的理解能力。當然更多的是兩者可能具有互補性，如同人類的三人行必有我師。

第二件事情是說通用視覺與專用視覺，我的觀點是對於醫療判讀這類的所謂專用視覺其實遠遠超越了視覺本身，它不僅僅是視覺，醫生的判斷是在視覺現象基礎上的知識 /邏輯推理。

胡佔義

這個觀點我有點不大同意。我最近十多年一直在研究生物視覺，視覺絕不是說就是感知，視覺包含認知。僅僅視覺物體識別這個具體問題，人類就有約三分之一的大腦皮層參與。當然，某個大腦皮層區域參與視覺問題，絕不能說該皮層就是視覺皮層。大腦的大多數高階皮層，都在於加工多種感覺資訊融合後的資訊，進行認知決策和行為規劃。所以說視覺問題，它涉及真個大腦，包括皮層和皮下組織的聯合加工，絕不是完全由大腦的視覺皮層完成。視覺皮層是指主要對視覺資訊進行加工的皮層，很多皮層參與視覺資訊加工，但不是視覺皮層。

我先說第一個觀點，人的視覺和計算機視覺是有區別的，如果說把人類視覺的腦加工機制完全解釋清楚，我覺得和搞清楚宇宙起源的難度沒有區別，我研究了差不多十五六年生物視覺，據我所知，神經科學領域目前對視覺 V1區研究的比較清楚，V2區已不太清楚，更不用後面的V4和IT區,以及前額葉（PFC）等高階皮層。視覺問題處理基本涉及到大腦皮層的各個區域。所以說研究計算機視覺我覺得我們要弄清楚到底什麼是計算機視覺，什麼是計算機視覺的核心科學問題，我們不能夠把什麼東西都往上加。我覺得我們要好好討論討論，五到十年內我們到底主要是研究視覺感知還是視覺認知？如果研究視覺認知那是一萬年的事。我目前不怎麼研究計算機視覺了，我主要關注生物視覺了，也許我說的不對，但我覺得大家還是聚焦一些，目標可實現一些。

我們討論五到十年的計算機視覺研究方向，不是指具體的演算法，我們十年前也不知道深度學習能達到今天這樣的一個高度，我們要討論到底哪些方向是值得研究的，我自己覺得有三個需要關注的方向： 1.基於神經生理的計算機視覺，估計在五到十年以內是一個重大方向；2.影片理解；3.涉及中國特色的全球戰略相關的視覺研究：如衛星資料理解（全球戰略），深海水下視覺資訊處理（深海戰略）。

紀榮嶸

我自己覺得我從博士畢業到現在大概 10年的時間，我認為計算機視覺是遠遠超過了我當時讀書時的任何方向，比如說自然語言理解，資訊檢索等等。我覺得一個重要的原因是深度學習帶來的收穫。但另一個方面，我們的這些系統太大太厚重，有沒有可能把這個系統做的小一些，做的開銷更小一些，這裡面有幾個維度。大家能馬上想到的維度就是把系統做小，做小就可以把它放到端上，放到嵌入式裝置上。第二個就是把系統做快，現在自動駕駛或者端上的裝置的計算，有可能需要系統處理資料要遠遠快於實時。

第三點，現在我們很多時候都是在做單點的系統，每個攝像機執行的功能都是一個完整的閉環，花了很多的計算代價做了很多重複的事情，未來的視覺系統有沒有可能由點到面進行大範圍系統之間的協同。就是說有沒有可能由專到廣的，為什麼是由專到廣，現在每個模型只能解決一個任務，為了解決目標識別用的是目標識別的模型，為了解決語義分割用的是語義分割的模型，為了解決人臉而用人臉的模型，我覺得我們的人腦並沒有分得那麼清楚。 one by one或者 1 v 1的我個人感覺太消耗資源了，有沒有可能有一種更靈活的機制，網路結構可以由不同的形式組合在一起，比如說一套模型的backbone，它往上的話既可以做識別又可以做分割還可以檢索，還可以做相關的理解。這樣的話就可以把整個計算量給降下來。我相信人類進化到現在這個階段，我們用我們的大腦實現了多工的，高效能的，並行而且只佔用極小的儲存開銷，我們每天只用吃三碗米飯，我們能完成這個計算機系統消耗多少的計算量來完成的事情。

第四個觀點，我覺得我們的系統現在“吃”資料“吃”的太厲害。我覺得我們人類自身真的沒有用到這麼多的資料進行學習，我們用了大量的資料複用，比如說我識別消防車，只需要在車子上加一些特殊的部件，我就能識別消防車，我們人是很智慧的。但是我們現在的計算機系統太吃這些硬性的資源，所以我覺得在計算資源的消耗上和訓練資料消耗上我們也應該探索更多的機制。

然後，從我自己的感受來說，過去的時間我們看到世界往前發展，我特別希望未來的五到十年裡面，計算機視覺的發展是由我們中國的學者去引領的，因為我們現在有巨量的市場，這個市場有我們能馬上可以看到的技術痛點，這痛點就在我們身邊，應該是我們來做，而不是讓外國人來做我們的痛點，我們應該去引領它，所以我覺得未來的五到十年有很多是我們這些中國計算機視覺的學者應該去做的事情。

林宙辰

在手機上要越做越小，我覺得這不是正確的方向。將來的視覺系統應該越做越大，不是越做越小。所有的運算透過 5G放在雲上面運算是未來的一個趨勢。我們大家都在雲端上建立一個大系統，這樣的話能夠解決多樣性的問題。因為要用一個小系統來解決各種各樣的問題，我覺得這個機率上講是不可能的，就是要建立一個跟人腦一樣複雜的一個系統，它才能夠解決各式各樣的問題，這個系統肯定只能放在雲上面，手機端願意多算就多，少算就少算，不要把所有的計算都擠到一個小的手機上面來。

紀榮嶸

我覺得不一定完全正確。我覺得端上可以做一些輕量級的計算，雲上做更重量的計算。而且端上的計算可以使資料的傳輸由重量級變輕量級。比如說原來傳影像，現在可以只傳特徵，原來要傳所有的區域，現在只要傳特定的區域。因為手機只用作攝像裝置感覺太浪費了，手機其實是一個很好的計算裝置。

林宙辰

我們並不矛盾。我是說想在手機上解決所有的問題這一點我是反對的。一開始你說要在手機上做小網路這個東西，肯定是越小功能越差。

胡佔義

對於這個問題我提個建議， 5G對我們計算機視覺影響有多大，其實就是小終端和大終端的問題。如果5G網路很快，終端乾脆就可以很小，不需要在這裡處理，直接放到雲上。我覺得5G對計算機視覺的影響確實要好好理解。

王亦洲

你倆說的沒有矛盾，在專業任務上一定要壓縮。處理是與任務相關的，只要滿足任務的需求就行。視覺是一個 ill-defined problem。什麼是視覺這個概念太大了，但如果侷限到影像，又太小了。所以怎麼去把握它呢？我們丟這個陣地，就丟在了問題的複雜度上面。現在已經被深度學習佔領了，我們再漂亮的理論、效能都不行。然後我們丟在哪兒了呢？視覺問題是不是深度學習就解決了？視覺並不僅僅是一個學習問題，剛才說視覺可以很大，它可以是個認知的問題， top-down、bottom-up、然後各種任務,我們定義的視覺問題的複雜度不夠，系統的複雜度也不夠。所以我們要把系統的複雜度給加上去，把任務的複雜度也加上去，但是在每個具體的專項的任務上面, 我們要儘量讓它簡潔（ compact）, 讓它適合於任務（ fit for task）就夠, 所以怎麼去拿回這個陣地，我覺得要在這兩方面，複雜度上面加大，然後才能夠有可能把這個視覺的東西給拿回來。但視覺其實不單單是視覺問題，應該是視覺主導的任務完成的一個問題。所以，以後 CVPR它有沒有存在的意義，或者說是不是還是那個趨之若鶩的東西都不一定。

山世光

我們值得討論的問題是，怎麼撇清計算機視覺與機器學習的關係？我們在未來幾年是不是就認慫了，是不是計算機視覺的問題就是機器學習的問題。這個我覺得我們年輕人還是特別困惑，比如說有什麼問題是機器學習肯定搞不定，只能靠計算機視覺理論和方法來去搞定的呢？

陳熙霖

是現在很多東西都被劃到機器學習了。可以對比一下 30年前機器學習的書和30年前模式識別的書，再拿今天機器學習和模式識別的書，看差別就行。

胡佔義

我覺得機器學習這個東西，是一種手段，它可以用於計算機視覺，也可以用於自然語言處理。模式識別和數學沒有區別，我比較理想，我覺得一個是一種解釋手段，一個是說要解決什麼科學問題。

王井東

接著剛才山老師提到這個問題。現在計算機視覺這麼火，有多少是機器學習能做出來的東西。像 alexnet也是做視覺問題，其實根本沒必要擔心。我自己也做過機器學習，可以舉個例子，早先做過加速、大規模等，在Matlab上面做，這怎麼能證明這是個大規模的問題，所以說同樣根本不用擔心這個問題。

剛才討論到一個問題，就是說計算機視覺 5到10年怎麼走。現在遇到一個狀況，不管是中國還是美國，今年年視覺方向的工作機會（opening）特別少，從2012起視覺火了8年，應該怎麼繼續走。計算機行業外的人給予CV很高的期望，比如超越人類。其實這件事情不靠譜，根本沒有超越人類。但是不做計算機視覺的人總覺得計算機視覺的人應該做些什麼東西。但是現在到這個階段，也許這跟當年神經網路一樣，像過街老鼠一樣，說計算機視覺的人吹牛皮。其實不是我們吹得，是別人吹的。我們要思考，我們視覺如果繼續往前走，科學研究方面是一個問題，另一方面是如何去得到持續關注真正做一些能夠work的系統出來。儘管我們今天已經在很多方面做得不錯，但坦白來講還沒真正work。計算機視覺是不是應該純粹從視覺的角度解決，其實多模態是一個很好的方向，單單靠視覺這一點，在監控系統裡面還是很大的一個問題。從方向上來講我比較看好多模態這個方向。

王濤

關於未來計算機視覺發展的趨勢很多。我感覺一個最重要的趨勢應該是主動視覺。 Imagenet競賽能識別很多的物體，但是影像分類真正在實際場景中就不管用。真正管用的是基於物體檢測，然後再進行識別的像人臉識別這種技術。為什麼人臉識別成功了，影像分類系統還不成熟。輸入一張影像，你必須得按不同的區域不同的粒度進行分析，比如在會場我們拍張照片，識別人，那我們去數人頭。但是如果要識別投影儀裝置，必須定位到這個投影儀影像才能找到。第二個問題是投影儀的資訊有多種層次，比如說有人想知道牌子，那你必須再細看到那個Logo，但是另外有人想知道怎麼操作這個投影儀，那你必須得識別它的各種介面，你才能把它的功能識別出來。我感覺最近的Imagenet和ActivityNet行為識別競賽，大家現在做的這兩類競賽都是用影像分類的競賽做。用影像分類做競賽，實際中都不能用，為什麼呢？它沒有像人一樣主動去識別，你得看到這個人，看到那個人真正發生動作的那一幀，這才能把它識別出來，所以我感覺主動是非常重要的。

第二個，要有層次。層次就是不僅要識別出一些基本的要素，還要把裡面的不同層次關係能夠結構化的提取出來。我們實驗發現把東西拿在一起學的效果會很差，但是如果把這個東西分成兩個部分，先固定解碼器學編碼器，然後再固定編碼器學解碼器，系統就學出來了。我們的學習得有一些像搭積木一樣的層次，先把基本的比如人臉、水杯、花識別出來，然後拍一張照片能把物體之間的關係給識別出來。

第三個，應該怎麼研究。視覺研究很廣，想要做成功，得針對具體的應用。人臉識別系統很成熟，但是用在自動駕駛上識別行人就不行，得一類一類來，在不同應用場景中，需要看到不同的資料和不同的性質。所以我認為針對具體應用，未來除了在深度學習基礎上主動視覺，發揮層次融合推理應該是一個比較好的趨勢。

胡佔義

我覺得主動視覺很重要，但 5-10年主動視覺不可能取得巨大進展。這涉及到生物裡面反饋（feedback）的高層知識，但反饋很難短期內取得進展。關於視覺的目的1994年CVGIP組織了一個專刊，曾經有過一個辯論。從1994年到現在，可以說主動視覺沒有任何的進展。在生物神經系統裡面有大量的反饋，但不知道反饋是什麼東西。如果神經科學很難給出一點啟示的話，那麼我們計算機視覺就很難把它做成。這是我的一點個人觀點。

王濤

我覺得以前主動視覺不成功是因為研究方法不對和技術限制。

胡佔義

Recurrent有兩個，一個是同層的抑制，一個是高層的反饋，而高層的反饋在生物視覺裡面大家知道有大量的反饋，但是反饋的是什麼東西還不清楚。所以說根據我的理解，我覺得3-5年內生物視覺很難有較大進展。

王亦洲

我補充一下，回到學習上，學習是視覺的核心。視覺其實是個偽問題，但學習是一個永恆的本質問題。沒有學習，視覺存不存在都不太重要了。與其叫計算機視覺還不如叫 computational visual intelligence. 視覺是一種智慧，智慧的核心是學習怎麼去獲得知識，反饋只是學習和推理的一個環節。學習是什麼？是簡單的模式識別，還是高階學習，這可能是學習下一步應該走的，給學習起一個俗的名字叫元學習，如果要和計算機視覺對應，我們叫元認知。核心就是學習，不搞學習是不行的。

楊睿剛

我覺得機器視覺與生物視覺應該有區別，不一定機器視覺要學習生物視覺。舉個例子，比如說看全域性我要大照片，然後看區域性我要小照片，但是如果你有一個攝像頭，可以一下子拍 10億畫素，或者有一個攝像裝置能把光場記錄下來，那active learning與passive learning就沒有區別了。這種硬體區別至少在二維影像上，將來我覺得十億畫素應該是很快到來的事情。

陳熙霖

這個地方我補充一句，這裡的主動不僅指解析度，其本質是透過主動的“行為”進行探索，從而達到有限資源的最大化利用。

楊睿剛

你說的是一種主動感知的 explore，還有一種不改變環境不改變物體的。

陳熙霖

即使是不做改變，比如從一個角度看和從另一個角度看，光場相機並不解決這類問題，我們無法獲得物件背後的光場。

楊睿剛

光場相機陣列。

林宙辰

楊睿剛的意思是說乾脆把所有的資訊都採集了，這個機制還是有點不一樣。

王亦洲

主動學習有一個停機問題，有一個選擇的問題。就是說，你所有資訊都在這兒，你什麼時候停下來，你決定採哪一塊，這是最重要的。所以主動學習，它並不是你把所有東西都拍上去，你也得要選擇。

楊睿剛

選擇的問題肯定要在裡面，但是現在做主動學習肯定涉及到機器人等問題，超出了計算機視覺的範疇。

王亦洲

所以就不要抱著計算機視覺了，這個就是我的意思。

胡佔義

主動學習這裡面有兩個概念。第一個是要有探索和注視，否則的話就沒有主動性。第二個是記憶，主動視覺是從生物來的概念。在計算機視覺裡面，主動視覺這個概念太大了。

查紅彬

我想這裡可以將主動視覺與深度學習進行對比。深度學習的問題在於要有標註資料庫，需要事先整理好的資料。而視覺系統在實際場景中工作時，需要自己選擇對自己有用的樣本。這樣，將樣本選擇與視點選擇，結構重構，計算最佳化等策略結合起來，就能有效地發揮其主動性，而不需要讓人把所有的資料都收集好餵給它。

鄭偉詩

學習對視覺很重要。 Benchmark推動也束縛了目前計算機視覺的發展，ReID做到97%，大家就想不到該做什麼，但問題本身並沒解決。資料庫太有限，採集的東西沒有完全反映整個問題，比如說行人的遮擋問題，各種各樣的問題。在有限資料的時候，學習可能不能完完全全地解決它。有限資料下的學習，有沒有可能受到3D方面的啟發？把一個人整個3D的資訊，還有行人整個行為的3D資訊都能捕捉到的話，我們就可以去掉開放環境下所受到的這些影響，然後我們就可以重構。像我們可以構造一個靶場，這個靶場很重要，無論我們做任何的系統都要做測試，但如果只在有限資料上或片面的資料上做測試的話，我們在真實應用的時候可能就會有受限。因此如果我們能夠把3D這種因素嵌入到現在以2D影像為主導的計算機視覺裡面的話，可能會對我們整個計算機視覺在未來3到5年的發展能有另外一個維度的推動作用。

那麼為什麼做 3D？另外一件事情就是現在可能在全世界都在談的資料隱私問題。資料採集的隱私問題越來越重要，如果你用的是一個虛擬的靶場的話，這種隱私問題就完全不存在。所以，在未來包括可能在國外人臉識別、行人識別，甚至一些行為識別都有可能會受到嚴重的法律因素的滯後的影響的話，那麼我們更需要從3D的角度，從另外一個維度去考慮，是不是在這方面可以拓寬計算機視覺的發展方向，這是我的觀點。

賈雲得

我們做視覺很早了，早先把它作為一條小河，我們流那麼多年，突然下大暴雨，現在是洪水猛獸（深度學習）來了。五年以後估計這個模式都過去了。我覺得那條河還會在。因為，從視網膜到視皮層這條通路在那擺著呢，非常高效。因此，還會有好多人研究，五年十年以後我們中國實驗室做什麼？肯定還是小河裡面。

我看好兩個方向。第一個是三維視覺，三維視覺不會很熱，也不會很冷，會一直往下走。第二，就是胡老師說的影片理解。這個好幾個老師也說了，多模態，就像我們看電影也是一樣的，看會兒畫面看字幕，看會兒字幕看畫面，來回互相理解，現在好像挺熱的。原來我們遇到的是資料 -語義的鴻溝。後面我們在識別結果和意識間的鴻溝也會出現，一旦有鴻溝就變成熱點，因為裡邊主觀加的東西太多了。我覺得影片理解應該是一個熱點。

魯繼文

我覺得我們現在用了很多機器學習的知識。下一步，我自己更願意做一些特別的工作，就是從機器學習到機器推理。比如給你一幅影像，你一看就知道這個影像未來應該怎麼樣發展，但對於計算機再強的網路都不行。我覺得現在計算機視覺裡面很多時候效能之所以好，是在於我們對這個問題的定義，在這種定義基礎上已經基本上可以解決。現在我們可能要再去找一些更能夠描述或者更能夠匹配人類視覺能力的計算機視覺任務。現在比如說檢測、分割、檢索、識別，都是單獨的視覺任務，這種單純的視覺任務還是有點簡單。當然有的老師可能有不同的觀點，就是說他們的變化這種東西可能比較難。但實際上人的視覺更多的時候可能不是這樣子的。所以，我覺得在計算機視覺裡面一個很重要的問題是怎麼樣找到這樣的任務，能夠更好的與我們人類的視覺任務匹配起來，這樣的任務既不能太難也不能太簡單。這樣的任務我覺得還需要我們多花時間去思考討論，我自己也不知道是什麼任務。

王亮

未來 5到10年的CV發展趨勢這個主題的主要目的是希望聽聽我們國內視覺界專家們的新見解。今天聽了各位講了很多，方方面面都有。如果說個趨勢的話，每一個方面可能都會有一定的趨勢，但大家的意見有不相同，也有相同的地方。這個主題的定位是希望透過這次的深度研討梳理幾個視覺領域中最重要的大家都認可的這樣一個發展趨勢，有不同的意見沒有關係，而且這個討論也是有交叉的。

查紅彬

這種討論我覺得挺好。講一些發展趨勢，然後大家能夠有一些思想上的碰撞和火花。做視覺研究，大家在發展趨勢上，如果有完全一樣的看法會很奇怪。要整理出比較明確的發展趨勢也很難。為什麼呢 ? 誰要想做出很好的工作，他就應該有一些與別人不一樣的看法，如果大家都是同樣的看法，這事情就很難往下做。所以我覺得，我們更多的是透過交流各自的想法，啟發我們自己能有一些新的思路，或者在我自己的這些想法上能找到一些更多的理由、依據，然後把這個事情做下去。所以我想透過這些討論，更多的是我們們能不能將來在國際會議上，在研究成果方面，我們也有自己的一些特色在裡邊。到目前為止，我們寫文章是在拼什麼？就拼資料庫測試上效能提高了百分之幾，而且大多數是在別人方法上改進一下，然後做個實驗說我提高了百分之多少。但是我們很少有說你的想法跟別人在什麼地方不一樣，然後你這個不一樣的東西在某個地方用起來會有一些效果。一開始你可能效果會比較差，而且你也不容易輕鬆地打動別人，但是在你的帶領之下很多人都會來做這個事情的時候就不一樣了。所以我想說，能不能將來不是隻盯著這個資料庫上的資料去拼，而是有更多的比較好的創意出來。

山世光

是不是可以倡議建立一個只評價 idea、方法原理，不評價在benchmark或者資料庫上的好壞的審稿機制？

陳熙霖

胡老師剛才提到的 1994年CVGIP組織的一個專刊中，當年提出了三個需要改進的方面，今天真正實現的只有一件——就是benchmark。那場討論中說我們這個領域裡的工作缺乏比較，自說自話，之後就產生了各種各樣比較的資料集。所以我剛才有一句話，在過去近30年中Benchmark推動了計算機視覺研究的進步，就是指的那場討論開始的。

查紅彬

我同意你的觀點。現在回過頭來看看，計算機視覺研究了這麼多年，也許就是在那些文章出來之後，我們再沒有看到什麼新的主意、新的理論出來了。在那之前百家齊放，好像有很多新的說法出來。在那個 benchmark出來之後大家都在做同樣的事情，最後整個領域就變得不怎麼活躍了。

胡佔義

我們既然研究計算機視覺，我建議大家讀一讀 Marr的書。

盧湖川

剛才說到的 benchmark，我覺得至少計算機視覺這個benchmark的存在，使得計算機視覺有別於純粹的機器學習，而且特別是起到了該有的歷史作用。現在大家對它的詬病最主要的原因就是它還是一個單一的benchmark。那隻能說這個benchmark並不像人一樣，那如果有人再去定一個更復雜的benchmark，它是多維的，也許這個benchmark就能夠驅動下一個時代的發展，也許就能夠完成像人一樣的學習或者識別等等。我覺得benchmark本身並沒有太大問題，因為人從小受教育的時候就是教他這是什麼那是什麼，只是人是一個綜合的智慧體。現在的benchmark如果再往更高的維度發展，也許能夠有更好的收穫。

楊睿剛

現在的 benchmark太多了，哪些benchmark重要，哪些benchmark不重要，還有隨之而來的各種各樣的比賽，哪些是重要的，哪些不重要。在某種意義上是不是也跟大家說，我又拿了個世界第一，但可能這個世界第一里面只有十個人參加。那有沒有一種方法可以有這樣的一個更加好的量化機制，可以給benchmark一個benchmark。

王井東

Benchmark現在有個很大的問題是很多人做不了。Imagenet很多人做不了，那做不了從我們研究人員的角度來講，就是文章可能出不去，這是一個可能不好的地方。但從另外一個角度來講 benchmark挺重要的。視覺的任務目的很多，我們做視覺還有一個重要目的就是培養學生，那至於視覺培養學生這個功能可能是區別於其他的，比如Multimedia。Multimedia從培養學生的角度上我覺得是很好的。但它有個很大的缺點，是沒有benchmark。從這個角度來講benchmark還是需要的。只是現在審稿人對資料集的規模期望更大了，這對很多人來講尤其是學校裡面是很有挑戰的，現在可能就少數幾個公司比較強。這是我對benchmark的觀點。

王亦洲

建議 PRCV單開一個track，鼓勵創新性。單開一個不看效能的track。

未來5-10年計算機視覺發展趨勢

相關文章