沙龍主題:讓計算機看懂世界
時間:2015年9月14日
嘉賓:
- 賈揚清(谷歌大腦資深科學家,全球最普遍使用的影象識別開源軟體 caffe 的作者)
- 徐偉(百度深度學習實驗室傑出科學家)
- 趙勇(格靈深瞳創始人,前谷歌研究院資深科學家,谷歌眼鏡核心成員)
主持人:雷鳴(北大大資料與機器學習創新中心主任;百度七劍客,酷我創始人)
摘要:當前計算機視覺和影象處理技術的發展現狀,未來5年的發展和挑戰。影象處理將來在安防領域、身份識別、智慧硬體、機器人、以及醫療、農業、教育、軍事等各個行業的可能突破,商業化機會等。
環節一:沙龍對話
主持人雷鳴:各位,我們今天非常有幸請到了賈揚清,徐偉,趙勇三位人工智慧專家,讓我們歡迎他們的到來!下面開始今天的溝通話題。
雷鳴:首先,請三位嘉賓聊一下當前計算機視覺和影象識別的現狀,現在到底到了什麼水平?
趙勇:影象識別在過去幾年發展太迅速了。五年前我博士畢業剛剛加入谷歌研究院的時候,我所在的組很多同事都在研究這個問題。回憶當時,可能不會有任何人可以想象到之後這幾年這個領域有這麼巨大的進展。如果盲目地看看ImageNet、ILSVRC上跑的分數,甚至給人這麼一種感覺:計算機影象識別的能力是不是已經超越人類了?
趙勇:當然這些重要的進展,最大的貢獻,來自於深度神經網路技術的發展,大資料的發展,以及大規模高效能運算的發展。
賈揚清-谷歌-research:對,計算機視覺在物體識別上的進展前幾年突飛猛進,現在幾乎可以說已經超越人類在特定的任務上的識別能力了,比如說人臉識別,具體物種的識別等等。
徐偉-百度IDL-傑出科學家:我認為在一些特定的任務上,是超過人類了。比如人臉識別。
雷鳴:特定任務,也就是說當我們聚焦在一類問題,並匹配相應的演算法和資料訓練,可以接近,並不是廣泛的超越,也就是說在開放的資料上,和人類還是有很大差距的,對吧?
賈揚清-谷歌-research :對的,比如說Washington University最近開放的MegaFace專案,就有這樣的結果。一些在Labeled Face in the Wild上比較好的演算法在更大的MegaFace資料集上就可能出現瓶頸。說明在更開放的資料集上,我們還有很多進展可以期待。
趙勇:我不會把超越人作為一個合理的目標。畢竟人擁有很多非常特殊的能力,在有些地方人的能力遠遠超過機器;在其他方面其實機器早就超過人了。譬如人臉識別今天的進展允許計算機在一個很大的資料庫裡識別人,這件事情人可能就做不到。因為畢竟大多數人的記憶能力有限,在他的生活中最多需要識別幾百人。但是對於熟悉的人,人的識別能力是極其精確的。即使在很差的光線條件,很遠的距離,甚至帶上口罩和墨鏡,有時候人都有很好的識別能力。俗話說:對於特別熟悉的物件,人眼可以做到“燒成灰我都認識你”。
徐偉-百度IDL-傑出科學家:另外說和人比,需要說明是和普通人還是和專家比。不少任務也已經超過普通人。比如動物識別,花卉識別。
雷鳴:@趙勇,也就是說,我們人類在進行熟悉的人的識別時,其實不僅僅應用的圖片資訊。
趙勇:我的意思就是徐偉的意思。對於識別自己熟悉的人,每個人都是專家。今天計算機仍然比不上人類的專家。
徐偉-百度IDL-傑出科學家:不過對特定人的識別,目前也還缺乏這樣的資料。人是有了大量的資料才會做的很好的。不過計算機比不上,一種可能是沒有這麼多的資料去做這樣的研究。
賈揚清-谷歌-research :我對視覺領域的進展還是挺樂觀的,比如說今年的ImageNet Challenge準備不再包含object classification,但是要增加object detection和video detection的比重,也說明研究界對於新的問題的興趣。
趙勇:首先,對於識別熟悉的人,人類掌握巨大規模的資料,例如識別自己的親人。另外,人生活在一個時間和空間連續的世界中,我們的識別不是發生在一張照片裡。這裡面的機理可能非常複雜。今天的深度學習還沒有到這種程度。
雷鳴:各位感覺,以現在的發展速度,在開放資料上,在未來5年會有突破嗎?
徐偉-百度IDL-傑出科學家:過去幾年的進步有不少是因為有了合適的資料帶來的,比如ImageNet, LFW。如果有人提供了這樣的資料,可能相應的結果很快就會出來。因為計算能力現在已經有了。
賈揚清-谷歌-research :如徐偉所說,資料可能會是將來研究這些演算法的一大需求。
雷鳴:現在我們很多識別都集中在圖片上,對於視訊流資料,以及3維的深度資訊,對識別的幫助大嗎?將來這些資訊對於提升識別質量,是否會有非常大的幫助?
趙勇:動作識別這個領域,三維資訊的作用就非常大。提到動作識別,大家可能印象最深的還是Kinect技術。這是一種依賴深度感測器的識別技術。畢竟,之於動作本身,最重要的核心資訊是形狀、結構,而不是色彩和紋理等傳統兩維彩色相機。因此這個結果也是非常合理的。但是,無論是Kinect還是OpenNI,本質上仍然解決的是人機互動過程中使用的動作識別問題。在這些應用中,識別的物件(互動者)往往站在相機的正面,用一種配合的姿態被識別。所以大多數時候不存在多個物體之間的相互遮擋,人體各個肢體之間的相互著當也不嚴重,而且人體的形態比較簡單(不會附帶其他物體,比如揹包、雨傘、箱子等身體之外的物體)。基本上這些場景都屬於比較可控的場景。
賈揚清-谷歌-research :很有幫助。去年techcrunch上有一個有趣的demo叫IsItYou - 使用三維資訊和時間維度可以得到比單純圖片更豐富的資訊。
徐偉-百度IDL-傑出科學家:我覺得,對於視訊影象的學習,現在計算能力還有些欠缺。
趙勇:當時在完全不可控的場景中(例如安防監控),首先要同時應付更多的人,這些人之間可能有嚴重的相互遮擋,而且由於這些人都沒有主動配合識別,和相機的視角方向有可能是正面、側面、背面、甚至是下面。加上實際情況中的複雜性,比如人們可能攜帶著各種無法預測的物體,人與人之間可能非常接近以至於糾纏在一起。在這種不可控的情況下,動作識別的挑戰還是很大的。
趙勇:事實上,格靈深瞳在過去兩年基於RGBD相機,研發了一款用在安防監控領域裡的視覺系統。在動作識別方面我們遭遇了嚴重的挑戰。在面對這些挑戰的過程中,深度神經網路技術,針對人體結構的先驗知識,更好的volumetric tracking技術幫了大忙。儘管如此,實時動作識別這個feature仍然面臨著運算成本高等現實問題。當然,也有很多學者通過大量樣本的深度學習,在傳統色彩相機捕捉的資料上試圖識別肢體動作。這些研究也產生了一些有趣的結果。但是和基於深度訊號的方法相比,這類技術的現狀是隻能比較好的處理簡單的姿態。在對結果要求比較高的實時系統中,目前看來還是基於深度影象的方法比較靠譜。
賈揚清-谷歌-research :現在視訊學習很多還是一些大公司在做,關鍵是因為資料和運算能力都還沒有達到commoditize的程度。
趙勇:我希望高效能運算技術能夠獲得更大的突破,尤其是低成本低功耗的異構運算技術,能夠使得我們能夠更加有效地、低成本地在實時環境中使用深度神經網路技術。目前的深度學習技術嚴重依賴GPU平臺。雖然在訓練模型階段,這樣的成本是可以接受的。但是在大規模應用深度學習,特別是在移動裝置、機器人等實時應用中,使用GPU來進行模型測試並不是最理想的方式。為了迎接這些挑戰,我們需要更強大,更高效的半導體運算架構。
雷鳴:影象識別對於公共安全,企業安全和家庭安全,都有什麼可能的作用和貢獻呢?
趙勇:我希望感測器方面能夠有重要的突破。在彩色感測器方面,我希望敏感性以及動態範圍能夠有大的改善。在深度感測器方面,我希望尺寸更小、工作距離更遠、功耗更低的感測器能夠被推上市場,這方面大家可以關注solid state lidar這項技術。個人認為這項技術對於機器人領域有很大的影響力。
雷鳴:看來隨著計算能力的提升,我們可以期待在視訊資訊處理上的巨大發展!下面我們談談對於具體的應用領域吧,首先我們接著趙勇提到的,就是安防領域。
徐偉-百度IDL-傑出科學家:安防還是很有空間的。我裝潢了一個視訊監視器,什麼風吹草動都會觸發。
趙勇:其實計算機視覺在今天的安防領域裡的存在感是很小的。市場上絕大多數安防產品,仍然停留在網路錄影機階段。
賈揚清-谷歌-research :我瞭解的在美國這邊有很多傳統的做家庭安防的公司,用的技術都很古老,所以效果也不很好,要不就是“風吹草動”就會有誤報,要不就是在真實時間中很難觸發。Dropcam、Nest等等在這方面做了一些嘗試,但是目前還沒有真正的產品問世,但是我覺得這會是一個很大的市場。
趙勇:要大規模在安防領域裡推廣計算機視覺,首先需要把資料平臺和運算平臺結合起來。今天的安防系統大多數達不到這樣的條件。
雷鳴:現狀不是太理想,如果有需求,恰恰說明未來有希望,各位暢想一下未來5年,這方面有哪些機會呢?
徐偉-百度IDL-傑出科學家:實時監控需要大量計算能力還是一個瓶頸。
趙勇:格靈深瞳在過去兩年一直研發安防系統使用的計算機視覺。我們使用了深度訊號,使得問題簡單一些。但是即使如此,在一個小小的攝像頭裡執行檢測、跟蹤、識別,甚至是深度學習識別,對於運算系統的挑戰還是很大的。
賈揚清-谷歌-research :我覺得將來的安防系統應該會配備智慧的攝像頭,在本地就可以實現視訊的理解,物體的識別以及跟蹤等等技術,這樣就不會需要長時間和伺服器的通訊,並且避免伺服器端被大量計算請求淹沒的問題,專用的晶片可能會在這個領域很有幫助。
雷鳴:@徐偉,這個能夠通過一些專用的計算機視覺晶片解決嗎?直接安裝在本地?
徐偉-百度IDL-傑出科學家:目前的演算法如果不計成本,應該可以做的不錯了。算低成本功耗的計算能力很重要。
賈揚清-谷歌-research :比如說NVidia的Tegra和Movidius的Myriad2就在致力於解決本地計算能力的壓力,但是目前的確還在初步嘗試的階段,在成本以及功耗速度比上面還有空間。
趙勇:在安防領域,有些公司正在走雲端計算的方案,就是把所有的影象資料都上傳到雲上,然後利用雲的計算能力來分析。但是這樣作的成本很高。所以我還是把希望寄託在高效能的嵌入式系統上。
徐偉-百度IDL-傑出科學家:我同意趙勇的觀點,都在雲端計算代價太高。
雷鳴:你們覺得考慮現在軟硬體的綜合發展,在未來5年,安防這個領域,計算機視覺這塊會有巨大的機會嗎?會有成熟可以接受的解決方案並大範圍被使用嗎?
趙勇:這點我還是樂觀的。至少在有些特殊領域,計算機視覺已經可以解決實際問題了。比如銀行安防(室內小場景),道路安防(汽車是比較容易處理的目標)。家庭安防的困難,就在與對成本要求很嚴格,幾乎不可能承受高成本的計算機視覺運算。而且家庭安防需要應付的情況更加複雜,難以預料。我更看好需求明確的政府和企業應用。
雷鳴:說到汽車相關,我發現很多停車場已經不髮卡了,直接拍照識別車牌。
賈揚清-谷歌-research :對的,還有一個應用是baby monitor ,這方面大家往往會願意投入不小的成本。
賈揚清-谷歌-research :parking是另外一個巨大的市場,比如說如何提供停車場內部的車流引導,如何動態計算停車場當中空餘車位的分佈,等等。比如說,大城市的機場停車場非常迫切地需要這樣的技術。
趙勇:是啊,車牌識別已經非常成熟了。但是目前套牌車很多,所以我們又開發了車行車款識別軟體能夠在幾千車型車款和年份中精確識別目標。在結合聯網的大資料,我估計以後套拍車就沒有生存空間了。
雷鳴:下面我們在聊聊身份識別這一塊兒,你們覺得會大範圍使用嗎?
賈揚清-谷歌-research :身份識別上我特別想提一下google做的Project Abacus,這個專案我一直在參與,前一段時間公開了,想法是通過檢測和識別使用者使用Android裝置的各種行為和生物資訊(點了什麼app,說了什麼話,人臉是不是匹配使用者)來實現無密碼的身份識別。人工智慧在這方面是非常核心的技術。
賈揚清-谷歌-research :這個專案我知道有很多我們們國內的同行在合作開發,比如說CUHK的湯老師組。更加智慧的身份識別,特別是隱式的身份識別,可以非常明顯地提高單純基於密碼的系統的安全程度。
趙勇:總體來說,安防領域的挑戰還是很大的。雖然面前市場上的產品基本上都是錄影機,但是使用者對於計算機視覺產品的期待還是非常高。如果不能解決實際問題,產生大量誤報,使用者寧可不使用。比如人臉識別技術,在安防系統中的使用量是很低的。
雷鳴:當前如果在照片相對理想的情況下,人臉識別的錯誤率時多少?人臉識別和其他生物特徵識別相比,孰優孰劣,比如指紋,虹膜,聲音等。
徐偉-百度IDL-傑出科學家:人臉需要和傳統的刷卡來用,確保刷卡人正確。
賈揚清-谷歌-research:我個人的感覺是人臉目前作為一個單獨的方法還是不夠的,我們在LFW上可以達到0.2左右的錯誤率,這個對於銀行來說還是太高。
雷鳴:是否人臉識別當前,乃至很久一段時間,都只能作為身份識別的輔助手段,而很難作為主要手段使用?
賈揚清-谷歌-research:所以需要增加其他的資訊,比如說密碼,語音等等。
趙勇:虹膜肯定精確的多。有文獻表明虹膜識別的能力達到192 bit entrophy,人臉現在好想只有十幾個bit. 但是虹膜識別的侵入式比較高,距離近。不過人臉識別目前工作距離也不遠。
徐偉-百度IDL-傑出科學家:語音不見得比人臉好。
賈揚清-谷歌-research:我覺得整合才能達到效果,偷一張照片容易,但是偷照片+偷語音+偷密碼+偷卡,並且要一一匹配起來就很難了,每個單獨的方法可能都只能達到十幾個bit
雷鳴:那麼所謂的刷臉支付,如何理解?
徐偉-百度IDL-傑出科學家:卡和臉結合已經很好了。刷臉支付可以保證你的卡不被偷用,就是刷卡不用密碼
雷鳴:@徐偉,刷臉支付實際是卡+臉(卡是唯一的)
趙勇:人臉支付的活體檢測可能是個問題。也就是如何區分一張真的人臉還是一張照片,或者視訊裡的人臉。現在的活體檢測往往要求人臉按照軟體指引產生一些對應的移動,但是這樣的體驗並不好。
徐偉-百度IDL-傑出科學家:比如商場買東西,不用擔心活體的問題。
趙勇:無論如何,使用多種手段,結合各種優勢,來提高可靠性,必然會是未來主流。
雷鳴:下面我們在聊聊計算機視覺對智慧硬體,以及機器人發展的影響。大家覺得計算機視覺和機器人發展之間會有什麼相互關係?
趙勇:機器人從很多角度來講,只剩下感知技術一個瓶頸了,如果能夠解決感知問題,機器人這件事情就能夠大規模的發生。
雷鳴:我記得和李飛飛教授聊得時候,他認為當前的機器人對世界的感知因為影象理解不深入,所有有很多侷限,解決的好會非常促進。
賈揚清-谷歌-research:機器人一直都是人工智慧裡面的一個大方向,不過我覺得機器人所需要的可能是廣義的計算機視覺 - 因為機器人可以使用多種感測器,不光是單獨圖片或者視訊的資訊。
徐偉-百度IDL-傑出科學家:認知技術會是更大的瓶頸,關鍵是聽到了,看到了,該做什麼。現在機器人還是缺乏決策推理的能力
趙勇:現在是聽到、看到,但是聽不懂、看不明白,由其在現實世界裡。@賈揚清,我想到了DARPA的機器人大賽。
賈揚清-谷歌-research:機器人領域另外的一個挑戰是如何通過理解以後的資訊來實現機器人的行為,在機器人領域目前很多方法都是case by case的,如何找到一個通用的演算法(比如說reinforcement learning)是個挺大的挑戰。
徐偉-百度IDL-傑出科學家:現在語音識別做的不錯了,不過計算機還是不知道該幹什麼
趙勇:先不去想特別複雜的、有人類思想和行為的機器人,就說能夠在現實世界裡完成具體功能的機器人,例如汽車,現在核心問題仍然是怎樣把可靠的感知技術變成可以大規模推廣的現實。
雷鳴:@徐偉,語義理解,確實還在繼續進展中
徐偉-百度IDL-傑出科學家:對,所以即使解決了計算機視覺問題,也只能作特定任務的機器人。
賈揚清-谷歌-research :這方面我覺得首先會在特定的方向上有突破(比如說自動駕駛汽車),因為從大規模推廣的角度說,最後零點幾的錯誤率是很重要的,這個需要很多工程上的努力。說句大家經常開玩笑的話,“機器學習最擅長的就是解決問題到一半”。
趙勇:谷歌在無人駕駛方面做了很多領先的工作。聽說在近期也要量產無人駕駛汽車了。當然目前這種技術依賴的鐳射雷達、差分GPS,以及高精度IMU,都價值不菲。距離走入平凡的汽車還有遙遠的距離。
徐偉-百度IDL-傑出科學家:特定任務的機器人離人們心目中的智慧機器人還有有不同的
雷鳴:@徐偉,估計機器人的發展還是在於先發展和完善特定機器人。
趙勇:人們心目中的智慧機器人,我覺得還不是未來五年討論的目標。
徐偉-百度IDL-傑出科學家:是啊,所以我說認知是最大的瓶頸。
趙勇:我覺得既然人都可以依賴視覺系統開車,我希望未來的計算機視覺也能幫助自動駕駛汽車完成任務。畢竟這項技術的成本低的多,而不是目前以谷歌汽車為主的這種路線。
賈揚清-谷歌-research :谷歌汽車現在其實也越來越多地使用計算機視覺的技術,所以這應該是一個大方向
徐偉-百度IDL-傑出科學家:依靠視覺自動開車,5年內應該有戲,不過鐳射雷達如果大規模生產,說不定就便宜了。
雷鳴:我突然在考慮,是否人類考慮的那種強人工智慧機器人根本就不會出來?想象工業革命,估計人類在工業革命初期也考慮一個像人一樣什麼都能做,都能做好,力氣大的機器,可是最終我們到現在為止,還是各種專用機。
趙勇:提到所謂的“強人工智慧”,我個人挺悲觀的。可能不是未來二十年能夠看到的東西。
徐偉-百度IDL-傑出科學家:二十年不算悲觀了。100年算悲觀!!
賈揚清-谷歌-research :我覺得強人工智慧的概念可能是一個偽問題,因為從一定程度上“智慧”在語義上就是我們還無法理解的東西,如果我們瞭解了一個東西是如何實現的,就不算智慧了,這個在以前人工智慧解決各種遊戲(backgammon)以後,從大家的反響上就可以看出來。
趙勇:關鍵是,我根本就沒有見到很多靠譜的“強人工智慧”團隊。這個概念已經在市場上被炒作的泛濫。人工智慧的發展,肯定還是由弱到強。現在連“弱智慧”都沒搞定,太早的討論“強智慧”似乎不靠譜。
雷鳴:我們拉回來到視覺,大家對計算機視覺在其他領域的應用,還有什麼想法?比如農業,測量,醫學,軍事等有什麼已知的有意思的公司或產品,或者未來5年可能有的機會。
徐偉-百度IDL-傑出科學家:醫學方面會有很大希望。
賈揚清-谷歌-research :這方面應用很多,農業、醫學方面的公司都有。加州有一個公司採用視覺的技術來實現生菜的苗距管理,可以實現3-10%的產量提升,這方面的效果非常明顯。
趙勇:我看好商業資料分析、生命科學研究、以及安全領域(例如金融安全、公共安全領域)
賈揚清-谷歌-research :在軍事上也有很多應用,比如衛星影象的目標檢測。在醫學上,很多公司比如說metamind,enlitic,cellscope,都有很好的應用。
雷鳴:@賈揚清,你最近剛剛釋出了2.0版本caffe,相對前一個版本有什麼重要更新啊?
賈揚清-谷歌-research :簡單地說是希望使得大家在科研應用上更加容易一些,比如說可以更容易地構建一個sgd的演算法,這個目前是我們的一個嘗試性的refactor,具體我就不多打岔啦:)民用的衛星檢測也很有市場,比如說通過監測港口的貨船來預測經濟走勢(這個對很多金融公司都是很有用的訊號)。
趙勇:最近我看到華大基因創始人王俊討論用大資料和人工智慧解決生命科學問題,覺得很有意思。
趙勇:說到機器人,除了家裡用的掃地機器人,我個人最看好自動駕駛汽車成為人類歷史上最早實現的大規模機器人。我很看好這項技術。如果成功,可以改善安全、交通效率和環保問題。
問題1:深度學習在醫學影象有那些可以做的應用?
賈揚清-谷歌-research:在醫學上面,深度學習最直接的應用是醫學影象檢測,比如說癌症的病灶。更長遠地說,可以通過自然語言處理等方法來index大量已知病例,來幫助醫生安排醫療方案以及估計預後問題2:多種感測器資訊包括影象,語音等,用於機器人,有什麼好的資訊融合或協同學習的方法或研究?
賈揚清-谷歌-research:協同學習目前還處於比較簡單的後期融合上面
問題3:請賈先生介紹一下適用於影象、動作識別的基礎演算法有哪些?
賈揚清-谷歌-research:影象識別基本上就是標準的CNN方法;物體檢測有很多傳統的方法,比如說Viola-Jones,最近比較有意思的是用CNN來做檢測,比如說R-CNN和multibox;動作識別的話,可以用單純的CNN,如果是視訊的話也有結合sequence model(比如說LSTM)的方法
問題4:深層模型訓練需要各種技巧,例如網路結構的選取,神經元個數的設定,權重引數的初始化,學習率的調整,Mini-batch的控制等等。現在有這麼方面的理論指導嗎?”
賈揚清-谷歌-research:這個還真不太容易,很多的時候有點像經驗科學,Karen Simonyan在CVPR上的tutorial很值得看一下:http://image-net.org/tutorials/cvpr2015/recent.pdf
問題5:請問,我看到大家對影象識別和大資料應用討論很深入,但是卻忽略了使用者隱私和系統安全的考慮,不知道這方面是否有值得關注的研究?
徐偉-百度IDL-傑出科學家:現在我們的網路空間已經很不安全了,未來如果大規模應用智慧自動駕駛、或者機器人等時,我覺得網路安全的問題會更加突出”,隱私和安全需要區分對待。如果對人的價值足夠大,人可能會願意犧牲一些隱私。但是安全問題必須要有保證
問題6:趙總您覺得除了這些傳統的方向,比如車輛,行人檢測,車道線檢測,道路檢測等,在交通領域還有哪些計算機視覺可以入手解決的問題?車內?車外?交通流?
趙勇:我也入行不久。簡單分享一下:計算機視覺無非就是解決檢測、跟蹤和識別的問題。接下來,需要根據這些結果產生行業需要的功能。在交通領域裡,科技上能作的事情不多了。因為汽車的行為分析並不特別苦難,問題是產品。怎樣造出效能特別穩定的產品?怎樣是的產品在各種條件下可靠的工作?怎樣大幅度地降低產品成本,使得這種能夠能夠被大規模地應用。我覺得這些是智慧交通領域裡的主要挑戰
問題7:關於遷移學習,現在的研究現狀如何,業界有比較好的應用麼?
徐偉-百度IDL-傑出科學家:遷移學習在影象、語音、和語言都有成功的應用。ImageNet 模型的特徵在很多其他問題都有很好的表現。word embedding也在很多語言問題裡很有用。語音識別同樣,DNN
問題8:剛才各位老師提到零點幾的錯誤率很重要,那麼對於控制機器學習的uncertainty方面,現在都有哪些技術或者手段呢?能否有可能像實驗一樣給出一個誤差限?
賈揚清-谷歌-research:傳統機器學習其實是有比較完整的處理uncertainty的方法的,比如說概率圖模型的輸出往往是概率分佈,本身就有uncertainty。DNN經常被人詬病的一點是因為它輸出是一個point estimation,所以的確很難預測uncertainty。這方面一直有research的進展,但是沒有off-the-shelf的解決方法
問題9:定製化深度學習專用晶片,從應用層面看,雲端計算和嵌入式端計算,對晶片功能和效能設計,在需求上有什麼異同?
趙勇:雲端計算的好處是效能高,容量大,功耗被藏在應用背後了。但是缺點就是對頻寬的依賴。很多時候,實時應用,由其是移動的實時應用是不能依賴這種現場採集資料,後臺解決問題的遠端方式的。何況視覺訊號的頻寬成本非常高。所以我覺得未來大多數應用都必須實現人工智慧前端實現。那麼主要的挑戰就是在前端,怎樣設計高通量、高效能和低功耗低成本的晶片。Nvidia在Tegra系列中作了一些非常有意義的產品,但是未來還需要急需提高效能降低成本;還有一些公司,例如CEVA, Movidous也出了一些有趣的產品。無論是怎樣的產品,有一件事情是確定的,未來的人工智慧計算機必須實現更強大的平行計算。
問題10:由於對資料的大量需求,計算機視覺和機器學習在當前是否只適應大公司開發和利用,如果小公司想做這塊,有哪些好的突破點?
趙勇:我們也是小公司,我們也找到了一些方法解決資料問題。更重要的資料收集手段,可能是循序漸進,讓自己的產品在工作中自動採集更多的資料,來iteratively改善產品的效能。
問題11:對於影象檢測問題,正負樣本比例往往非常懸殊,即便是CNN這樣強大的判別式模型做起來也有相當的難度。而對於人來說,檢測某種物體似乎是一個生成式的問題。請問對此目前有沒有比較好的解決方案?
賈揚清-谷歌-research:正負樣本比例懸殊是一個傳統的機器學習問題,這一般可以通過resampling或者reweighting來解決,或者在後期基於測試資料/應用場景的實際分佈來recalibrate。目前生成式模型(generative model)有一些有意思的研究,比如說Facebook發表的用CNN來生成影象的文章。但是總的來說,實際的識別問題還是使用區分式模型(discriminative model)效果更好
問題12:對於影象檢測問題,正負樣本比例往往非常懸殊,即便是CNN這樣強大的判別式模型做起來也有相當的難度。而對於人來說,檢測某種物體似乎是一個生成式的問題。請問對此目前有沒有比較好的解決方案?
徐偉-百度IDL-傑出科學家:特定物體的檢測,如果訓練資料充分,大多數都可以解決的不錯了。
問題13:影象識別技術,比如要做一個化學苯化物的識別因為紙質和攝像頭環境因素影響比較大怎麼做精準識別?大量的圖片知識庫?”
賈揚清-谷歌-research:這個問題我不是很瞭解,一般來說,一個比較大的資料庫還是必要的,特別是輸入的圖片和一般影象差別很大(化學試劑圖片vs一般網圖)的時候
問題14:請問Caffe什麼時侯能支援多GPU?
賈揚清-谷歌-research:已經支援啦:https://github.com/BVLC/caffe/pull/2870
問題15:現在有用FPGA開發前端、並完成深度學習任務的嗎?
賈揚清-谷歌-research :據我瞭解百度、微軟以及很多startup(teradeep,nervanasys)等都有這方面的嘗試或者產品
問題16:現在有用FPGA開發前端、並完成深度學習任務的嗎?"
徐偉-百度IDL-傑出科學家:據我瞭解百度、微軟以及很多startup(teradeep,nervanasys)等都有這方面的嘗試或者產品"—百度已經用到產品了。
問題17:請問賈先生,既然深度學習調參沒有經驗,那麼您是靠什麼指導訓練的呢?
賈揚清-谷歌-research :說實話,一個就是不斷試錯,另一個就是通過現有網路來finetune,比如說從inception開始,然後改變loss function
問題18:目前關於視訊上傳的頻寬要求很高,有沒有視覺傳輸的協議?
趙勇:有很多視訊傳輸協議(h263,264 etc.),也有專門針對網路視訊訊號傳輸的協議。但是視覺訊號的資料量實在是太大了。有不能壓縮得太嚴重,否則細節資訊的確實會給後臺分析軟體帶來很多困擾。
問題19:影象識別技術,比如要做一個化學苯化物的識別,因為紙質和攝像頭環境因素影響比較大怎麼做精準識別?大量的圖片知識庫?
趙勇:我覺得並不是所有問題都必須依賴深度學習,或者機器學習來解決。
問題20:請問美國有哪些大公司在做機器學習和nlp在醫療方面的應用?
賈揚清-谷歌-research:我只知道IBM Watson。如果不包括startup的話,公開的可能的確只有IBM,但是很多公司(比如說Kaiser,美國的一個醫療+保險集團)也在低調地做一些努力,這個方面還是處於起步階段吧。問題21:深度學習最終看到的只是分類結果,如何看到學習的特徵,然後Digits工具學習到並顯示的特徵該如何看?(對應的是傳統影象處理方法而人工設計的特徵)
賈揚清-谷歌-research:這個更多的是在visualization上的一些技術細節,比如說matplotlib等等,可以參考caffe裡的filter visualization的示例。應該不是很困難。
問題22:目前關於視訊上傳的頻寬要求很高,有沒有視覺傳輸的協議?
賈揚清-谷歌-research :如果前端可以做計算,我們甚至可以直接傳輸從視訊中得到的語義資訊,比如說“有個人走過來了”,然後只傳輸有需求的視訊部分。當然,隨著計算能力的提高和網路技術的提高,說不定將來這都不是問題了。
趙勇:在今天的計算機視覺領域裡有一個讓我比較擔憂的現象,就是大多數學生都認為計算機視覺只剩下機器學習,甚至是深度學習了。其實還有很多子領域,比如computational photography,visual slam等等領域,非常非常重要。甚至很多時候,物理領域裡發生的一些突破,會導致感測器領域的巨大創新,使得人們原本研究的很多問題都不存在了。所以我覺得計算機視覺領域,必須重視多學科的進展。
賈揚清-谷歌-research:很同意趙勇的觀點,深度學習只是計算機視覺(以及人工智慧)的一個方面,雖然最近有長足的發展,但是我們不應該過於限制在深度學習的框架上
徐偉-百度IDL-傑出科學家:在深度學習之上,還需要有更多的東西。不過深度應該是必須的。
雷鳴:各位,今天的沙龍到此結束,非常感謝各位嘉賓的參加。我代表10個群,近3000名熱心聽眾表示感謝!!!
本文經作者雷鳴授權轉載。