【X開放日】連線人與世界的攝像頭——餘凱解析百度大腦

網際網路X實驗室發表於2014-05-15

由網際網路X實驗室主辦的【X開放日】於5月11日下午成功舉辦，7個來自中國網際網路最前沿的創新成果參加路演，來自不同領域的近300位嘉賓參與活動，並與演講嘉賓熱情互動。

第一位演講的嘉賓是百度深度學習研究（IDL）常務副院長餘凱先生。作為我國第九期千人計劃的專家，餘凱先生畢業於南京大學，在德國慕尼黑大學獲得博士學位，是人工智慧領域的專家，發表了70多篇論文，被引用超過5000多次。本文為餘凱演講內容速記。

enter image description here

【餘凱】謝謝大家。百度大腦涉及音訊、影像、文字，以及各種各樣資訊的處理。在我們整個大腦計劃當中計算機視覺是很重要的一塊。所以今天給大家分享的主題是《連線人與世界的攝像頭》。

從去年開始，我更多的精力放在影像處理問題上。我認為攝象頭將來會成為人連線世界重要的入口之一。首先我們看百度大腦，這個大腦有幾個性質。比如說我們的網頁搜尋、語音搜尋、影像搜尋，還有使用者的各種點選，包括在搜尋點選、廣告的點選，實際上這些資料都經過百度大腦不斷地在學習，它今天的狀態和昨天的狀態是不一樣的，這點和我們人類不斷地去獲取觀測資料、獲取知識，不斷演進是相關的。

我們知道，隨著神經網路的規模不斷變大，處理資料的能力越來越強。一個很重要方面，是我們能夠構建世界上目前我們知道的最大的深度神經網路，它有200億個引數。我們去年取得了2013年網頁搜尋排序質量最大的提升，當時這是一個直接把深度神經網路用在自然語言處理的一個成果。所以有這種構建大規模網路的能力，我們就可以開發各種各樣的系統，做智慧的語義理解。

目前來講，百度大腦在百度的整個核心業務產品處於什麼階段？我給大家稍微地講一下。其實百度的核心業務是搜尋，通過返回滿足使用者的資訊需求，連線使用者與資訊、使用者與服務。實際上，每次使用者的搜尋需求，其在百度的整個服務過程裡我們都用上深度神經網路，使得連線變得更加地精準。

在第一階段就是query理解，各種形式表達的需求，不光是文字，也包括影像、包括語音。第二個就是根據相關性做搜尋排序，第三階段核心就是通過CTR預估，找到滿足使用者需求的廣告或服務。在這三個方面，深度學習都應用得非常成功。

面向未來，其實我們可以把整個網際網路的服務看作一個人工智慧的有機體，首先一點，它具有感知部分，傳統來講我們從網際網路上去獲得網頁資訊，把這些網頁做索引，用來做搜尋和廣告，但是現在我們面向未來，我們不僅僅檢索網頁，而是要檢索有結構的知識。除了從網際網路獲得資訊，我們還越來越多地關注人的資訊，通過人機互動、語音識別、手勢識別、穿戴式裝置，讓我們更加了解人的需求，這使我們能夠更好地提供各種各樣的服務。

第三方面，我們越來越多地關注來自物理世界的資訊輸入，比如說一些靜態的資訊，像三維街景，這個街道有多寬，有多少商鋪等等。還包括一些動態的資訊，比如說這個時間點上天氣是怎麼樣的，交通狀況是怎麼樣的，這會與很多服務需求相關，這是物理世界的感知，在整個智慧感知框架裡越來越重要。

今天我特別要講到一點就是影像識別，影像識別是連線大腦和物理世界一個重要的入口。為什麼這麼說？前一天我們辦了一個小活動，請了很多業界的，尤其是O2O的一些創業者，我們問大家一個問題，在O2O這個場景裡面，在5年到10年的時間裡面，你最看好哪一種連線方式？

A. 圖象識別；B. 二維碼；C. NFC；D. 語音識別。讓大家投票。照理說，二維碼在目前是連線人和世界應用最廣泛的方法，但是，投票結果是大家都選擇了A影像識別。為什麼？我們知道人從世界去獲取資訊，然後昇華、轉化、內化，這個連線人和世界的介面，其實90%的資訊是從視覺來的，這是大家都認識到的。比如說我問大家一個問題，願意失去視覺還是失去聽覺，想必大家都認為失去視覺是最糟糕的事情。視覺資訊獲取是認識世界的關鍵所在。

今天，移動網際網路來勢凶猛。給大家分享一個故事。這張圖是2005年教皇選舉的情景，人們在聖彼得廣場上面等待選舉的結果。另外一幅圖，2013年新的教皇選舉，我們從移動網際網路的角度來看這個世界發生翻天覆地的變化，8年後每個人都用攝像頭來記錄世界。我們發現，智慧手機上的攝像頭，已經成為人類眼睛的延伸。

在移動時代，智慧手機的攝像頭會不會成為資訊入口之一？到目前為止還沒有驗證，但是它可能是有最大想象空間的一件事情。這說明什麼呢？我們的理想狀態和現狀有巨大的差距，那就說明這裡面可能有巨大的機會，潛在的機會。

百度對這個問題非常重視。這裡是百度CEO李彥宏2012年參加國際資料探勘會議的主題發言。他談到了百度公司目前面臨的九大技術挑戰，其中1、2、3都跟智慧感知有關，而1和2都是和影像識別有關的。

到目前，相對於語音識別，影像識別還是相當不成熟的技術。語音識別的整體框架已經比較成型，基本上20年沒有什麼太大變化。而影像識別到目前為止，它的基本框架還在摸索，因為這個問題非常非常難。難在什麼地方？首先語音是一維訊號，而影像至少是二維訊號，甚至是三維訊號，就是說資訊的維度非常大。

給大家一個直觀的例子，看這個圖，我們知道這個是Chair，這個是Chair，這個是Chair，那這個是不是Chair？對人來講的話，某些人感覺這是Chair，但是對於機器多半覺得並不是Chair。機器它其實並不理解。剛才的問題，我們就拍個照，識別這是牛肉拉麵，再翻譯英文說這是什麼。實際上這就是一氣呵成的通過圖象識別，通過語言的翻譯把問題解決了。

影像識別有很多坑，非常非常難。這是一個暖壺瓶，演算法就識別成消防栓。它視覺上面確實有一些欺騙性，它看起來就像一個消防栓。我們現在不斷推出影像識別產品，比如百度魔圖、百度識圖、拍照翻譯等等。有時候會識別不準確，被使用者調侃兩句，但這都沒關係。我們會推出這些產品或功能，一方面，看使用者反映怎麼樣；另外一方面我們獲得了非常非常多的資料，使用者在真實場景下拍的影像內容。我們因此蒐集了幾千萬圖片，這些圖片都非常寶貴，將幫助我們提高影像識別的訓練。所以我們就是要死磕這個東西，最終要實現這個夢想，是把移動端攝像頭作成一個重要的資訊入口。

我給大家講一些非常乾貨的東西。我認為移動視覺它是非常有意思的場景，這個場景是什麼呢？有的時候，視覺搜尋具有不可替代性。比如說，你的朋友挎這麼一個包，你要想知道這個包或者樣子類似的包在什麼地方能買得到，有沒有便宜的價格，你要用傳統的搜尋肯定沒有辦法。你用文字嗎？你該如何去描述女士用的包？你只知道是皮包，或者是什麼顏色。

但是一幅圖，可抵過千言萬語。所以最好的表達搜尋需求的方式，就是拍一張照片。但是，從幾百萬包的圖片庫裡面去找到相似的包，這個問題是非常非常難的。首先第一點，如果這個圖片是有背景的，你不能把背景拿出來搜尋，所以要用智慧的手段。單單就這個分割問題，就難倒了一大批的研究者。而難點遠不止於此，還有很多很多其他難點。

我給大家說一下，目前技術手段能夠做到什麼程度。對圖象紋理比較豐富的剛體，這個剛體分為兩維、三維。兩維物體，比如說海報、書的封面，都還比較好處理，因為不同的拍照角度只是導致仿射變換。如果它是三維的剛體，它的每個立面也是符合仿射變換，這個問題從技術上來講，目前這個水平還能達到。

最難就是對於非剛體的識別，比如說在座的各位每個人都是非剛體，因為有各種各樣的形變，這種形變就使問題變得非常非常複雜，到目前為止是沒有很滿意的解決辦法的。

不管怎麼樣，根據我對目前前沿技術的掌握，我相信這個問題在5年之內可以解決。最終攝像頭將成為連線人和世界最重要的資訊入口之一。謝謝大家！

互動環節：

Q1：第一個問題是：百度是如何來做叢集的？第二個，能不能為每一個人搭建個性化訓練的模型，可以在某個人的手機或者每個人獨立的帳戶，設立他獨立的識別，語音、圖象識別的話，會有可能進一步提高識別的機率。

A：第一個問題，我們用GPU和CPU，對於超大規模的深度神經網路來說用GPU還是比較難的，兩級記憶體之間資料交換還是有一定的侷限的，所以對於大規模DNN我們用CPU比較多。第二個問題，百度的大部分搜尋產品一直在做個性化。

膝上型電腦攝像頭怎麼開啟筆記本攝像頭設定在哪裡
2022-06-29
筆記
win10如何開啟電腦攝像頭錄影_win10用電腦自帶攝像頭錄影的方法
2019-12-11
Win10
Win10怎麼開啟攝像頭 win10開啟攝像頭的方法
2016-01-08
Win10
android 開啟攝像頭
2019-04-18
Android
WebRTC開啟本地攝像頭
2021-11-24
Web
Win10攝像頭如何開啟_WIN10攝像頭在哪裡
2020-07-04
Win10
WIN10膝上型電腦攝像頭的開啟步驟_筆記本win10攝像頭怎麼開啟
2020-07-03
Win10筆記
電腦釘釘攝像頭許可權在哪設定電腦釘釘視訊會議攝像頭黑屏
2022-06-05
windows10攝像頭怎麼開啟_window10怎麼開啟攝像頭的方法
2019-11-28
Windows
蘋果macbook pro筆記本連線外接攝像頭詳細教程
2019-01-12
蘋果Mac筆記
安卓開發之呼叫攝像頭
2018-04-07
安卓
Win10專業版攝像頭在哪裡開啟 windows10攝像頭開啟的方法
2022-04-01
Win10Windows
電腦攝像頭驅動安裝方法教程
2016-12-13
筆記本攝像頭怎麼開啟筆記本設定攝像頭教程
2022-11-01
筆記
攝像頭操作指南
2018-05-08
ToDesk勾上攝像頭會看到我嗎？如何關閉攝像頭
2024-06-21
專訪模組廠商:人臉識別中單攝像頭和雙攝像頭該如何選型
2020-11-27
t440s win10攝像頭如何開啟_win10怎樣開啟攝像頭
2020-05-23
Win10
win10微信影片無法使用攝像頭怎麼辦 win10電腦微信打不開攝像頭解決方法
2020-11-25
Win10
攝像頭黑屏怎麼辦各種攝像頭不能用的解決方法
2016-07-29
win10系統電腦攝像頭打不開怎麼辦
2016-09-27
Win10
win10攝像頭開啟是黑的怎麼辦_win10攝像頭開啟黑屏如何修復
2020-07-28
Win10
安卓呼叫攝像頭拍照
2020-07-04
安卓
Android呼叫攝像頭
2016-04-12
Android
.NET 攝像頭採集
2024-08-29
win10相機為什麼打不開攝像頭黑屏 win10攝像頭開啟黑屏
2022-03-30
Win10
win10微信視訊無法使用攝像頭怎麼辦 win10電腦微信打不開攝像頭解決方法
2020-11-25
Win10
Android開發之呼叫攝像頭拍照
2016-12-26
Android
搭建一個攝像頭應用程式應用程式內部攝像頭
2021-07-06
攝像頭不能用怎麼辦攝像頭不能用解決辦法
2016-08-30
Android提供的攝像頭拍照
2020-03-17
Android
NumPyCookbook帶註釋原始碼四、連線NumPy與剩餘世界
2017-06-12
原始碼
MacBook如何開啟微信攝像頭的許可權？
2022-02-28
Mac
蘋果攝像頭新專利曝光：提升照片解析度
2015-03-27
蘋果
Win10攝像頭黑屏是怎麼回事_Win10攝像頭開啟黑屏如何解決
2020-06-02
Win10
Android 呼叫攝像頭功能【拍照與視訊】
2014-06-03
Android
Win10筆記本怎麼開啟攝像頭 Win10筆記本攝像頭開啟的兩種方法
2016-05-25
Win10筆記
黑客入侵家庭攝像頭，放恐怖音樂嚇哭小女孩
2019-12-16
黑客

【X開放日】連線人與世界的攝像頭——餘凱解析百度大腦

相關文章