【X開放日】連線人與世界的攝像頭——餘凱解析百度大腦

網際網路X實驗室發表於2014-05-15

由網際網路X實驗室主辦的【X開放日】於5月11日下午成功舉辦,7個來自中國網際網路最前沿的創新成果參加路演,來自不同領域的近300位嘉賓參與活動,並與演講嘉賓熱情互動。

第一位演講的嘉賓是百度深度學習研究(IDL)常務副院長餘凱先生。作為我國第九期千人計劃的專家,餘凱先生畢業於南京大學,在德國慕尼黑大學獲得博士學位,是人工智慧領域的專家,發表了70多篇論文,被引用超過5000多次。本文為餘凱演講內容速記。

enter image description here

【餘凱】謝謝大家。百度大腦涉及音訊、影像、文字,以及各種各樣資訊的處理。在我們整個大腦計劃當中計算機視覺是很重要的一塊。所以今天給大家分享的主題是《連線人與世界的攝像頭》。

從去年開始,我更多的精力放在影像處理問題上。我認為攝象頭將來會成為人連線世界重要的入口之一。首先我們看百度大腦,這個大腦有幾個性質。比如說我們的網頁搜尋、語音搜尋、影像搜尋,還有使用者的各種點選,包括在搜尋點選、廣告的點選,實際上這些資料都經過百度大腦不斷地在學習,它今天的狀態和昨天的狀態是不一樣的,這點和我們人類不斷地去獲取觀測資料、獲取知識,不斷演進是相關的。

我們知道,隨著神經網路的規模不斷變大,處理資料的能力越來越強。一個很重要方面,是我們能夠構建世界上目前我們知道的最大的深度神經網路,它有200億個引數。我們去年取得了2013年網頁搜尋排序質量最大的提升,當時這是一個直接把深度神經網路用在自然語言處理的一個成果。所以有這種構建大規模網路的能力,我們就可以開發各種各樣的系統,做智慧的語義理解。

目前來講,百度大腦在百度的整個核心業務產品處於什麼階段?我給大家稍微地講一下。其實百度的核心業務是搜尋,通過返回滿足使用者的資訊需求,連線使用者與資訊、使用者與服務。實際上,每次使用者的搜尋需求,其在百度的整個服務過程裡我們都用上深度神經網路,使得連線變得更加地精準。

在第一階段就是query理解,各種形式表達的需求,不光是文字,也包括影像、包括語音。第二個就是根據相關性做搜尋排序,第三階段核心就是通過CTR預估,找到滿足使用者需求的廣告或服務。在這三個方面,深度學習都應用得非常成功。

面向未來,其實我們可以把整個網際網路的服務看作一個人工智慧的有機體,首先一點,它具有感知部分,傳統來講我們從網際網路上去獲得網頁資訊,把這些網頁做索引,用來做搜尋和廣告,但是現在我們面向未來,我們不僅僅檢索網頁,而是要檢索有結構的知識。除了從網際網路獲得資訊,我們還越來越多地關注人的資訊,通過人機互動、語音識別、手勢識別、穿戴式裝置,讓我們更加了解人的需求,這使我們能夠更好地提供各種各樣的服務。

第三方面,我們越來越多地關注來自物理世界的資訊輸入,比如說一些靜態的資訊,像三維街景,這個街道有多寬,有多少商鋪等等。還包括一些動態的資訊,比如說這個時間點上天氣是怎麼樣的,交通狀況是怎麼樣的,這會與很多服務需求相關,這是物理世界的感知,在整個智慧感知框架裡越來越重要。

今天我特別要講到一點就是影像識別,影像識別是連線大腦和物理世界一個重要的入口。為什麼這麼說?前一天我們辦了一個小活動,請了很多業界的,尤其是O2O的一些創業者,我們問大家一個問題,在O2O這個場景裡面,在5年到10年的時間裡面,你最看好哪一種連線方式?

A. 圖象識別;B. 二維碼;C. NFC;D. 語音識別。讓大家投票。照理說,二維碼在目前是連線人和世界應用最廣泛的方法,但是,投票結果是大家都選擇了A影像識別。為什麼?我們知道人從世界去獲取資訊,然後昇華、轉化、內化,這個連線人和世界的介面,其實90%的資訊是從視覺來的,這是大家都認識到的。比如說我問大家一個問題,願意失去視覺還是失去聽覺,想必大家都認為失去視覺是最糟糕的事情。視覺資訊獲取是認識世界的關鍵所在。

今天,移動網際網路來勢凶猛。給大家分享一個故事。這張圖是2005年教皇選舉的情景,人們在聖彼得廣場上面等待選舉的結果。另外一幅圖,2013年新的教皇選舉,我們從移動網際網路的角度來看這個世界發生翻天覆地的變化,8年後每個人都用攝像頭來記錄世界。我們發現,智慧手機上的攝像頭,已經成為人類眼睛的延伸。

在移動時代,智慧手機的攝像頭會不會成為資訊入口之一?到目前為止還沒有驗證,但是它可能是有最大想象空間的一件事情。這說明什麼呢?我們的理想狀態和現狀有巨大的差距,那就說明這裡面可能有巨大的機會,潛在的機會。

百度對這個問題非常重視。這裡是百度CEO李彥宏2012年參加國際資料探勘會議的主題發言。他談到了百度公司目前面臨的九大技術挑戰,其中1、2、3都跟智慧感知有關,而1和2都是和影像識別有關的。

到目前,相對於語音識別,影像識別還是相當不成熟的技術。語音識別的整體框架已經比較成型,基本上20年沒有什麼太大變化。而影像識別到目前為止,它的基本框架還在摸索,因為這個問題非常非常難。難在什麼地方?首先語音是一維訊號,而影像至少是二維訊號,甚至是三維訊號,就是說資訊的維度非常大。

給大家一個直觀的例子,看這個圖,我們知道這個是Chair,這個是Chair,這個是Chair,那這個是不是Chair?對人來講的話,某些人感覺這是Chair,但是對於機器多半覺得並不是Chair。機器它其實並不理解。 剛才的問題,我們就拍個照,識別這是牛肉拉麵,再翻譯英文說這是什麼。實際上這就是一氣呵成的通過圖象識別,通過語言的翻譯把問題解決了。

影像識別有很多坑,非常非常難。這是一個暖壺瓶,演算法就識別成消防栓。它視覺上面確實有一些欺騙性,它看起來就像一個消防栓。我們現在不斷推出影像識別產品,比如百度魔圖、百度識圖、拍照翻譯等等。有時候會識別不準確,被使用者調侃兩句,但這都沒關係。我們會推出這些產品或功能,一方面,看使用者反映怎麼樣;另外一方面我們獲得了非常非常多的資料,使用者在真實場景下拍的影像內容。我們因此蒐集了幾千萬圖片,這些圖片都非常寶貴,將幫助我們提高影像識別的訓練。所以我們就是要死磕這個東西,最終要實現這個夢想,是把移動端攝像頭作成一個重要的資訊入口。

我給大家講一些非常乾貨的東西。我認為移動視覺它是非常有意思的場景,這個場景是什麼呢?有的時候,視覺搜尋具有不可替代性。比如說,你的朋友挎這麼一個包,你要想知道這個包或者樣子類似的包在什麼地方能買得到,有沒有便宜的價格,你要用傳統的搜尋肯定沒有辦法。你用文字嗎?你該如何去描述女士用的包?你只知道是皮包,或者是什麼顏色。

但是一幅圖,可抵過千言萬語。所以最好的表達搜尋需求的方式,就是拍一張照片。但是,從幾百萬包的圖片庫裡面去找到相似的包,這個問題是非常非常難的。首先第一點,如果這個圖片是有背景的,你不能把背景拿出來搜尋,所以要用智慧的手段。單單就這個分割問題,就難倒了一大批的研究者。而難點遠不止於此,還有很多很多其他難點。

我給大家說一下,目前技術手段能夠做到什麼程度。對圖象紋理比較豐富的剛體,這個剛體分為兩維、三維。兩維物體,比如說海報、書的封面,都還比較好處理,因為不同的拍照角度只是導致仿射變換。如果它是三維的剛體,它的每個立面也是符合仿射變換,這個問題從技術上來講,目前這個水平還能達到。

最難就是對於非剛體的識別,比如說在座的各位每個人都是非剛體,因為有各種各樣的形變,這種形變就使問題變得非常非常複雜,到目前為止是沒有很滿意的解決辦法的。

不管怎麼樣,根據我對目前前沿技術的掌握,我相信這個問題在5年之內可以解決。最終攝像頭將成為連線人和世界最重要的資訊入口之一。謝謝大家!


互動環節

Q1:第一個問題是:百度是如何來做叢集的?第二個,能不能為每一個人搭建個性化訓練的模型,可以在某個人的手機或者每個人獨立的帳戶,設立他獨立的識別,語音、圖象識別的話,會有可能進一步提高識別的機率。

A:第一個問題,我們用GPU和CPU,對於超大規模的深度神經網路來說用GPU還是比較難的,兩級記憶體之間資料交換還是有一定的侷限的,所以對於大規模DNN我們用CPU比較多。第二個問題,百度的大部分搜尋產品一直在做個性化。

相關文章