【X開放日】連線人與世界的攝像頭——餘凱解析百度大腦
由網際網路X實驗室主辦的【X開放日】於5月11日下午成功舉辦,7個來自中國網際網路最前沿的創新成果參加路演,來自不同領域的近300位嘉賓參與活動,並與演講嘉賓熱情互動。
第一位演講的嘉賓是百度深度學習研究(IDL)常務副院長餘凱先生。作為我國第九期千人計劃的專家,餘凱先生畢業於南京大學,在德國慕尼黑大學獲得博士學位,是人工智慧領域的專家,發表了70多篇論文,被引用超過5000多次。本文為餘凱演講內容速記。
【餘凱】謝謝大家。百度大腦涉及音訊、影像、文字,以及各種各樣資訊的處理。在我們整個大腦計劃當中計算機視覺是很重要的一塊。所以今天給大家分享的主題是《連線人與世界的攝像頭》。
從去年開始,我更多的精力放在影像處理問題上。我認為攝象頭將來會成為人連線世界重要的入口之一。首先我們看百度大腦,這個大腦有幾個性質。比如說我們的網頁搜尋、語音搜尋、影像搜尋,還有使用者的各種點選,包括在搜尋點選、廣告的點選,實際上這些資料都經過百度大腦不斷地在學習,它今天的狀態和昨天的狀態是不一樣的,這點和我們人類不斷地去獲取觀測資料、獲取知識,不斷演進是相關的。
我們知道,隨著神經網路的規模不斷變大,處理資料的能力越來越強。一個很重要方面,是我們能夠構建世界上目前我們知道的最大的深度神經網路,它有200億個引數。我們去年取得了2013年網頁搜尋排序質量最大的提升,當時這是一個直接把深度神經網路用在自然語言處理的一個成果。所以有這種構建大規模網路的能力,我們就可以開發各種各樣的系統,做智慧的語義理解。
目前來講,百度大腦在百度的整個核心業務產品處於什麼階段?我給大家稍微地講一下。其實百度的核心業務是搜尋,通過返回滿足使用者的資訊需求,連線使用者與資訊、使用者與服務。實際上,每次使用者的搜尋需求,其在百度的整個服務過程裡我們都用上深度神經網路,使得連線變得更加地精準。
在第一階段就是query理解,各種形式表達的需求,不光是文字,也包括影像、包括語音。第二個就是根據相關性做搜尋排序,第三階段核心就是通過CTR預估,找到滿足使用者需求的廣告或服務。在這三個方面,深度學習都應用得非常成功。
面向未來,其實我們可以把整個網際網路的服務看作一個人工智慧的有機體,首先一點,它具有感知部分,傳統來講我們從網際網路上去獲得網頁資訊,把這些網頁做索引,用來做搜尋和廣告,但是現在我們面向未來,我們不僅僅檢索網頁,而是要檢索有結構的知識。除了從網際網路獲得資訊,我們還越來越多地關注人的資訊,通過人機互動、語音識別、手勢識別、穿戴式裝置,讓我們更加了解人的需求,這使我們能夠更好地提供各種各樣的服務。
第三方面,我們越來越多地關注來自物理世界的資訊輸入,比如說一些靜態的資訊,像三維街景,這個街道有多寬,有多少商鋪等等。還包括一些動態的資訊,比如說這個時間點上天氣是怎麼樣的,交通狀況是怎麼樣的,這會與很多服務需求相關,這是物理世界的感知,在整個智慧感知框架裡越來越重要。
今天我特別要講到一點就是影像識別,影像識別是連線大腦和物理世界一個重要的入口。為什麼這麼說?前一天我們辦了一個小活動,請了很多業界的,尤其是O2O的一些創業者,我們問大家一個問題,在O2O這個場景裡面,在5年到10年的時間裡面,你最看好哪一種連線方式?
A. 圖象識別;B. 二維碼;C. NFC;D. 語音識別。讓大家投票。照理說,二維碼在目前是連線人和世界應用最廣泛的方法,但是,投票結果是大家都選擇了A影像識別。為什麼?我們知道人從世界去獲取資訊,然後昇華、轉化、內化,這個連線人和世界的介面,其實90%的資訊是從視覺來的,這是大家都認識到的。比如說我問大家一個問題,願意失去視覺還是失去聽覺,想必大家都認為失去視覺是最糟糕的事情。視覺資訊獲取是認識世界的關鍵所在。
今天,移動網際網路來勢凶猛。給大家分享一個故事。這張圖是2005年教皇選舉的情景,人們在聖彼得廣場上面等待選舉的結果。另外一幅圖,2013年新的教皇選舉,我們從移動網際網路的角度來看這個世界發生翻天覆地的變化,8年後每個人都用攝像頭來記錄世界。我們發現,智慧手機上的攝像頭,已經成為人類眼睛的延伸。
在移動時代,智慧手機的攝像頭會不會成為資訊入口之一?到目前為止還沒有驗證,但是它可能是有最大想象空間的一件事情。這說明什麼呢?我們的理想狀態和現狀有巨大的差距,那就說明這裡面可能有巨大的機會,潛在的機會。
百度對這個問題非常重視。這裡是百度CEO李彥宏2012年參加國際資料探勘會議的主題發言。他談到了百度公司目前面臨的九大技術挑戰,其中1、2、3都跟智慧感知有關,而1和2都是和影像識別有關的。
到目前,相對於語音識別,影像識別還是相當不成熟的技術。語音識別的整體框架已經比較成型,基本上20年沒有什麼太大變化。而影像識別到目前為止,它的基本框架還在摸索,因為這個問題非常非常難。難在什麼地方?首先語音是一維訊號,而影像至少是二維訊號,甚至是三維訊號,就是說資訊的維度非常大。
給大家一個直觀的例子,看這個圖,我們知道這個是Chair,這個是Chair,這個是Chair,那這個是不是Chair?對人來講的話,某些人感覺這是Chair,但是對於機器多半覺得並不是Chair。機器它其實並不理解。 剛才的問題,我們就拍個照,識別這是牛肉拉麵,再翻譯英文說這是什麼。實際上這就是一氣呵成的通過圖象識別,通過語言的翻譯把問題解決了。
影像識別有很多坑,非常非常難。這是一個暖壺瓶,演算法就識別成消防栓。它視覺上面確實有一些欺騙性,它看起來就像一個消防栓。我們現在不斷推出影像識別產品,比如百度魔圖、百度識圖、拍照翻譯等等。有時候會識別不準確,被使用者調侃兩句,但這都沒關係。我們會推出這些產品或功能,一方面,看使用者反映怎麼樣;另外一方面我們獲得了非常非常多的資料,使用者在真實場景下拍的影像內容。我們因此蒐集了幾千萬圖片,這些圖片都非常寶貴,將幫助我們提高影像識別的訓練。所以我們就是要死磕這個東西,最終要實現這個夢想,是把移動端攝像頭作成一個重要的資訊入口。
我給大家講一些非常乾貨的東西。我認為移動視覺它是非常有意思的場景,這個場景是什麼呢?有的時候,視覺搜尋具有不可替代性。比如說,你的朋友挎這麼一個包,你要想知道這個包或者樣子類似的包在什麼地方能買得到,有沒有便宜的價格,你要用傳統的搜尋肯定沒有辦法。你用文字嗎?你該如何去描述女士用的包?你只知道是皮包,或者是什麼顏色。
但是一幅圖,可抵過千言萬語。所以最好的表達搜尋需求的方式,就是拍一張照片。但是,從幾百萬包的圖片庫裡面去找到相似的包,這個問題是非常非常難的。首先第一點,如果這個圖片是有背景的,你不能把背景拿出來搜尋,所以要用智慧的手段。單單就這個分割問題,就難倒了一大批的研究者。而難點遠不止於此,還有很多很多其他難點。
我給大家說一下,目前技術手段能夠做到什麼程度。對圖象紋理比較豐富的剛體,這個剛體分為兩維、三維。兩維物體,比如說海報、書的封面,都還比較好處理,因為不同的拍照角度只是導致仿射變換。如果它是三維的剛體,它的每個立面也是符合仿射變換,這個問題從技術上來講,目前這個水平還能達到。
最難就是對於非剛體的識別,比如說在座的各位每個人都是非剛體,因為有各種各樣的形變,這種形變就使問題變得非常非常複雜,到目前為止是沒有很滿意的解決辦法的。
不管怎麼樣,根據我對目前前沿技術的掌握,我相信這個問題在5年之內可以解決。最終攝像頭將成為連線人和世界最重要的資訊入口之一。謝謝大家!
互動環節:
Q1:第一個問題是:百度是如何來做叢集的?第二個,能不能為每一個人搭建個性化訓練的模型,可以在某個人的手機或者每個人獨立的帳戶,設立他獨立的識別,語音、圖象識別的話,會有可能進一步提高識別的機率。
A:第一個問題,我們用GPU和CPU,對於超大規模的深度神經網路來說用GPU還是比較難的,兩級記憶體之間資料交換還是有一定的侷限的,所以對於大規模DNN我們用CPU比較多。第二個問題,百度的大部分搜尋產品一直在做個性化。
相關文章
- 膝上型電腦攝像頭怎麼開啟 筆記本攝像頭設定在哪裡筆記
- win10如何開啟電腦攝像頭錄影_win10用電腦自帶攝像頭錄影的方法Win10
- Win10怎麼開啟攝像頭 win10開啟攝像頭的方法Win10
- android 開啟攝像頭Android
- WebRTC開啟本地攝像頭Web
- Win10攝像頭如何開啟_WIN10攝像頭在哪裡Win10
- WIN10膝上型電腦攝像頭的開啟步驟_筆記本win10攝像頭怎麼開啟Win10筆記
- 電腦釘釘攝像頭許可權在哪設定 電腦釘釘視訊會議攝像頭黑屏
- windows10攝像頭怎麼開啟_window10怎麼開啟攝像頭的方法Windows
- 蘋果macbook pro筆記本連線外接攝像頭詳細教程蘋果Mac筆記
- 安卓開發之呼叫攝像頭安卓
- Win10專業版攝像頭在哪裡開啟 windows10攝像頭開啟的方法Win10Windows
- 電腦攝像頭驅動安裝方法教程
- 筆記本攝像頭怎麼開啟 筆記本設定攝像頭教程筆記
- 攝像頭操作指南
- ToDesk勾上攝像頭會看到我嗎?如何關閉攝像頭
- 專訪模組廠商:人臉識別中單攝像頭和雙攝像頭該如何選型
- t440s win10攝像頭如何開啟_win10怎樣開啟攝像頭Win10
- win10微信影片無法使用攝像頭怎麼辦 win10電腦微信打不開攝像頭解決方法Win10
- 攝像頭黑屏怎麼辦 各種攝像頭不能用的解決方法
- win10系統電腦攝像頭打不開怎麼辦Win10
- win10攝像頭開啟是黑的怎麼辦_win10攝像頭開啟黑屏如何修復Win10
- 安卓呼叫攝像頭拍照安卓
- Android呼叫攝像頭Android
- .NET 攝像頭採集
- win10相機為什麼打不開攝像頭黑屏 win10攝像頭開啟黑屏Win10
- win10微信視訊無法使用攝像頭怎麼辦 win10電腦微信打不開攝像頭解決方法Win10
- Android開發之呼叫攝像頭拍照Android
- 搭建一個攝像頭應用程式 應用程式內部攝像頭
- 攝像頭不能用怎麼辦 攝像頭不能用解決辦法
- Android提供的攝像頭拍照Android
- NumPyCookbook帶註釋原始碼四、連線NumPy與剩餘世界原始碼
- MacBook如何開啟微信攝像頭的許可權?Mac
- 蘋果攝像頭新專利曝光:提升照片解析度蘋果
- Android 呼叫攝像頭功能【拍照與視訊】Android
- Win10攝像頭黑屏是怎麼回事_Win10攝像頭開啟黑屏如何解決Win10
- Win10筆記本怎麼開啟攝像頭 Win10筆記本攝像頭開啟的兩種方法Win10筆記
- 黑客入侵家庭攝像頭,放恐怖音樂嚇哭小女孩黑客