騰訊張正友:計算機視覺的三生三世

騰訊AI實驗室發表於2019-07-15
7 月 12 日-7 月 14 日,2019 第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平臺。
騰訊張正友:計算機視覺的三生三世

7 月 12 日,騰訊 AI Lab & Robotics X 主任,ACM Fellow, IEEE Fellow, CVPR 2017 大會主席張正友博士為 CCF-GAIR 2019 主會場「AI 前沿專場」做了題為「計算機視覺的三生三世」的大會報告。以下為報告全文——

騰訊張正友:計算機視覺的三生三世

大家好!非常感謝雷鋒網的邀請,讓我有這個機會給大家做個分享。今年是中國人工智慧四十週年,在這四十年間發生了很多事情,雷鋒網讓我跟大家講一講計算機視覺的前世、今生和可能的未來。其實這個報告應該由我的好朋友香港科技大學權龍教授來講,他比我早一年出國,而且他現在還在港科大潛心研究計算機視覺。我這些年間,還有好多年在做語音處理和識別、多媒體處理和機器人,所以我在計算機視覺上的研究史還不算很長。不過權龍教授有事沒法參加,我只能濫竽充數,給大家講講計算機視覺的一些故事。

雷鋒網找我是聽說我開始研究計算機視覺比較早。我 1985 年浙大本科畢業,1986 年去法國,參與研發了可能是世界上第一臺用立體視覺導航的移動機器人

影像處理

1986 年其實發生了很多事情,1986 年是我第一次參加國際會議,是在巴黎召開的 ICPR(世界模式識別大會)。在這次大會上,我碰到了復旦大學的吳立德教授,他帶領了一支中國的代表團,並在會上做了一場大會報告,介紹了中國在模式識別上的研究現狀,他們準備申請 1988 年的 ICPR 在中國召開。

騰訊張正友:計算機視覺的三生三世

這裡需要提到一個關鍵性的人物,那就是普渡大學的傅京孫教授,他是模式識別領域的鼻祖。他是 1973 年第一屆 ICPR 的主席,1976 年建立了 IAPR,1978 年創刊了 IEEE TPAMI,並擔任第一屆主編。本來他是支援 1988 年 ICPR 在中國召開的,但不幸的是 1985 年他去世了,所以 1988 年的申請沒有成功。如果 1988 年 ICPR 能在中國召開,也許中國在模式識別計算機視覺上的發展會更提前。當然歷史沒有如果。ICPR 在中國的召開等到了三十年以後,2018 年在譚鐵牛院士的帶領下,ICPR 第一次在中國召開。

騰訊張正友:計算機視覺的三生三世

1986 年還有一個很重要的事件,就是我的法國學長馬頌德回國,他創立了 NLPR(國家模式識別重點實驗室)。NLPR 創立之後,吸引了大批國外的學者回國,同時邀請了很多國外的訪問學者,中國計算機視覺領域開始與國際接軌。當然馬頌德是中國科技界重要人物,後來擔任科技部副部長。1997 年他還創立了中法聯合實驗室,這個實驗室一半的研究人員都是法國人,這在中國也是一個壯舉。

提到計算機視覺,離不開一個標誌性人物,MIT 的教授 David Marr。1979 年,剛好 40 年前,他提出了視覺計算的理論框架。Marr 的理論框架有三個層次,從計算什麼,到如何表達和計算,到硬體的實施。

具體到三維重建,Marr 認為從影像要經過幾個步驟,第一個步驟叫 primal sketch,也就是影像處理,比如邊緣提取。所以到八十年代中葉,計算機視覺的主要工作是影像處理。最有名的工作可能是 1986 年 MIT 一個碩士生發表的 Canny 邊緣檢測運算元,基本上解決了邊緣提取的問題。如下圖所示,左邊是原始影像,右邊是檢測出的邊緣。

騰訊張正友:計算機視覺的三生三世

那時候還有一個比較有名的工作是華人科學家沈俊做的,他那時在法國波爾多大學。他比較了不同的運算元。他的運算元在有些影像方面要比 Canny 檢測器要好。所以到了八十年代中葉,當我留學法國的時候,影像處理已經做的差不多了。

立體視覺及三維重建

幸運的是,幾何視覺剛開始興起。有兩位代表人物,一位是法國的 Olivier Faugeras,他是我的博士導師,另一位是美國的 Thomas Huang,我們叫他 Tom。他們是好朋友,還一起寫過文章。我 1987 年就認識 Tom,他對我有非常大的幫助。他培養了 100 多位博士,包括不少活躍在中國學術界和工業界的計算機視覺專家,他對中國計算機視覺的貢獻是非常巨大的。

我很榮幸師從 Olivier Faugeras,參與開發了世界上第一臺用立體視覺導航的移動機器人。1988 年我的第一個研究成果發表在第二屆 ICCV 上,右邊是在美國 Florida 開會的一張照片。那時候計算機視覺還沒有紅火,那屆 ICCV 大概只有 200 個參會者,華人就更少了,大概只有我、權龍,還有 Tom 的學生翁巨揚。我在博士期間圍繞三維動態場景分析做了不少工作,1992 年把這些整合成一本書發表。

騰訊張正友:計算機視覺的三生三世

現在我想舉一個簡單的例子,不定性的建模和計算,希望通過下面這一頁 PPT 你們就能明白什麼是三維計算機視覺

這裡需要用到概率與統計,這非常重要,但現在做視覺的人往往忽略了。下面兩條線代表了兩個影像平面。左邊影像上一個白點對應右邊影像上一個白點。每個影像點對應空間一條直線,兩條直線相交就得到一個三維點,這就是三維重建。同樣,左邊影像的黑點對應右邊影像的黑點,兩線相交得到一個三維點。但是影像的點是檢測出來的,是有噪聲的。我們用橢圓來代表不定性,那麼影像的一個點就不對應一條線了,而是一個椎體。兩個椎體相交,就代表了三維重建的點的不定性。這裡可以看到,近的點要比遠的點精確。當我們用這些三維重建點的時候就需要考慮這些不定性。比如當機器人從一個地方移動到另一個地方,需要估計它的運動時就必須考慮資料的不定性。

騰訊張正友:計算機視覺的三生三世

90 年代初我提出了 ICP 演算法,通過迭代點的匹配來對齊不同的曲線或曲面。這個演算法也用在很多地方。我們現在經常聽到的SLAM,它其實就是我們以前做的從運動中估計結構,三維重建,不定性估計,ICP。事實上,SLAM 在 90 年代初理論上已經解決了。

1995 年我提出了魯棒的影像匹配和極線幾何估計方法,同時把程式放到網上,大家都以此作為參照。這可能是世界上第一個,至少是之一,把計算機視覺的程式放到網上讓別人用真實影像來測試的。所以這個演算法那時候就成為計算機視覺的通用方法。

1998 年我提出了一個新的攝像機標定法,後來大家都稱它為「張氏方法」,現在它已經在全世界的三維視覺、機器人、自動駕駛上普遍應用,也獲得了IEEE Helmholtz 時間考驗獎。

騰訊張正友:計算機視覺的三生三世

1998 年我和馬頌德對日益成熟的幾何視覺做了總結,作為研究生教材由科學出版社出版。

1998 年還發生了很多事情,一個是 MSRA(微軟亞洲研究院)的成立,一個是騰訊公司的成立。這兩家看似無關的機構其實對中國計算機視覺的發展,對中國人工智慧的發展,起了不可估量的作用。MSRA 給中國帶來了國際先進的研究方法和思路,培養了一大批中國的優秀學者,同時也請了一些國外的研究學者來到中國。騰訊促進了中國網際網路的發展,因為有網際網路,中國研究人員能夠幾乎實時地接觸到國際最頂尖的研究成果。所以這兩個結合,對中國人工智慧領域的發展起到了很大的作用。

中國計算機視覺界一個重要的標誌性事件是 2005 年 ICCV 在北京召開,馬頌德和 Harry Shum 擔任大會主席,這標誌著中國計算機視覺的研究水平已經得到國際的認同。我也很榮幸地從 Tom Huang 前輩手中接過 IEEE Fellow 的證書。

深度學習的崛起

可能幾何視覺的理論已經比較成熟了,90 年代末,計算機視覺的研究開始進入物體和場景的檢測和識別,主要方法是傳統特徵加上機器學習

那時候我做幾何視覺做了很長時間,1997 年,我也開始嘗試,開發了世界上第一個用神經網路來識別人臉表情的系統,用的特徵是 Gabor 小波。雖然 20 多年前就開始人臉表情識別,但那時資料太少,一直到 2016 年我們才在微軟把人臉表情識別技術商業化,在微軟的認知服務上,大家都可以呼叫。

騰訊張正友:計算機視覺的三生三世

在傳統特徵加機器學習的年代,需要提一下一個里程碑的工作,那就是 2001 年的 Viola-Jones Detector。通過 Harr 特徵加級聯分類器,人臉的檢測能夠做得非常快,在 20 年前的機器上就能做到實時。這對計算機視覺產生了很大的影響。此後的迴圈是一波一波的新資料集推出,加一波一波的演算法刷榜。

2009 年一個叫 ImageNet 的資料集出現了,這是史丹佛大學李飛飛團隊推出的,這個資料集非常重要,它的意義不在於這個資料集很大,而在於幾年後催生了深度學習時代。

2012 年,Geoffrey Hinton 的兩個學生開發了 AlexNet,用了 8 層神經網路,6 千萬引數,誤差比傳統方法降了十幾個百分點,從 26% 降到 15%,從此開啟了計算機視覺深度學習時代。這個 AlexNet 結構其實和 1989 年 Yann LeCun 用於手寫數字識別的神經網路沒有很大區別,只是更深更大。

由於 Geoffrey Hinton, Yoshua Bengio, Yann LeCun 對深度學習的貢獻,他們共同獲得了 2018 年的圖靈獎。這個獎他們當之無愧。要知道 Geoffrey Hinton 1986 年就提出了 backpropagation,坐了 25 年的冷板凳。

騰訊張正友:計算機視覺的三生三世

深度學習時代還有一個里程碑的工作,2015 年,微軟亞洲研究院的何愷明孫劍提出 ResNet,用了 152 層神經網路,在 ImageNet 測試集上的誤差比人還低,降到了 4% 以下。

我在深度學習領域也有一點貢獻。2014 年我和 UCSD 的屠卓文合作,提出了 DSN(Deeply- Supervised Nets)深度監督網路,雖然影響沒有 ResNet 大,但也有近一千次引用。我們的想法是直接讓輸出監督中間層,使得最底層儘可能最大逼近要學習的函式,同時也緩解梯度「爆炸」或「消失」。

剛剛過去的 CVPR2019 可以被稱為是華人的盛典,在組織者裡面有很多華人面孔,包括大會主席朱鬆純、程式委員會主席華剛屠卓文。在五千多篇投稿中,40% 來自大陸,最佳論文獎和最佳學生論文獎的第一作者也都是華人。所以中國的計算機視覺能力還是很強的,這一點值得驕傲。

計算機視覺的研究要回歸初心

現在讓我們回顧一下計算機視覺研究的演變,從最初的影像處理、立體視覺與三維重建、物體檢測和識別,到光度視覺、幾何視覺和語義視覺,到現在的深度學習打遍天下。這是讓我擔憂的。深度學習有很多侷限性。

騰訊張正友:計算機視覺的三生三世

我認為接下來應該要回歸初心,讓光度視覺、幾何視覺和語義視覺緊密結合起來,同時注入常識和領域知識,和語言進行多模態融合,通過學習不斷演變。

騰訊張正友:計算機視覺的三生三世

我們騰訊 AI Lab 在這方面也開始做了一點點工作。比如我們的看圖說話專案能夠用語言描述一張照片的內容,2018 年 1 月,我們上線 QQ 空間 app 讓視障使用者「看到」圖片。

騰訊張正友:計算機視覺的三生三世

我們還整合了計算機視覺語音識別自然語言處理技術,開發了一個虛擬人產品,探索多模態人機互動,賦能其他場景,助力社交。我們還開發了二次元的虛擬人來做遊戲解說,它能實時理解遊戲場景並將它描述出來。

那麼現在的人工智慧真的智慧嗎?想象一下,如果一個人想要蓋住你的眼睛,你會怎麼做?我是會躲開的。但是從我剛才播放的視訊中可以看到,現在的監控系統顯然沒有這樣的舉止。現在的人工智慧只是機器學習:從大量的標註資料去學習一個對映

什麼是真正的智慧?我想目前還沒有定論,而且我們對我們自己的智慧還沒有足夠的瞭解。不過我很認同瑞士認知科學家 Jean Piaget 說的,智慧是當你不知道如何做的時候你用的東西。我認為這個定義是非常有道理的。當你無法用你學到的東西或天賦去面對時,你動用的東西就是智慧。如何去實現有智慧的系統呢?可能有很多條路,但我認為一條很重要的路是需要把載體考慮進去,做有載體的智慧,也就是機器人。

騰訊張正友:計算機視覺的三生三世

在機器人領域,我提出了 A2G 理論。A 是 AI,機器人必須能看能聽能說能思考,B 是 Body 本體,C 是 Control 控制,ABC 組成了機器人的基礎能力。D 是 Developmental Learning,發育學習,E 是 EQ,情感理解、擬人化,F 是 Flexible Manipulation,靈活操控。最後要達到 G,G 是 Guardian Angel,守護天使。

騰訊張正友:計算機視覺的三生三世

騰訊做了三款機器人:絕藝圍棋機器人、桌上冰球機器人,還有機器狗。可以為大家展示機器狗的視訊,機器狗具備感知系統,能夠繞開障礙物,看到懸空的障礙物能匍匐前進,看到前面一個人能蹲下來看著人。

我的報告就到這裡,騰訊的 AI 使命是 Make AI Everywhere,我們一定會善用人工智慧,讓人工智慧造福人類,因為科技向善。謝謝大家。

相關文章