2015年8月14日,由中國科協、中國科學院指導,中國人工智慧學會發起主辦的第五屆中國智慧產業高峰論壇在上海長榮桂冠酒店順利召開。

下面是百度研究院副院長張潼的發言,本文由中國人工智慧學會供稿,靜沙龍記者王嘉俊整理。

150Z2115927-53a-0

150Z2115927-1111-1

【張潼】我們知道“資料量日益增多”這是一個背景,可能每十年要增長一千倍。以前可能僅是線下資料的增加,而現在為什麼網際網路在資料量增加的作用反而更大了呢?這是因為在今天大資料的驅動很大程度上是來源於網際網路公司,包括:網際網路和移動網際網路。今後可能還會有感測器網,雲端等一系列。但是有一個共同前提,這就是“資料量日益增多”。

150Z2115927-A03-2
“雲”的概念,大家現在都很熟悉了,包括:IBM等一系列公司,都對“雲”投入都是非常巨大的。還有和我們這個會議有關的,就是人工智慧等等一些。李德毅院士講的非常好,現在的智慧基本上是用大資料驅動的,所以我把它叫“大資料智慧”。其中一個很重要的是:機器學習,現在很多領域在人工智慧包括在產業上,都有一系列的應用。

一個方面就是大資料在人工智慧上的應用,這個跟我們的會議比較相關。另外一個方面,就是它的一些創新的應用已經其將來的趨勢。

150Z2115927-24a-3
從大資料我們要看未來或者今天,從發展上,我覺得主要會有三個趨勢。

其一就是“個性化”。其實從整體來講,我們要談到大資料,包括大家看一些大資料的書籍都會講到這個趨勢,大資料的應用使我們瞭解每一個人,包括:有個很經典的例子,比如:一家美國公司,一位父親接到了一個郵件,說他女兒懷孕了什麼的。然後他就很生氣找郵件傳送者說到:我的女兒還沒有結婚等等一些。最後說郵件傳送方只能說:“這個我們可能錯了”,但是實際上最後發現自己是對的,而那位父親是錯了。從這個例子上,我們可以得知:用資料大家能夠非常精準的知道,甚至可能比大家身邊的人知道的更多。

其二就是:智慧化。智慧化在整個的大資料發展是非常重要的。當然,其中可能一個關鍵因素是由於智慧化是一個更加底層的技術。

第三個方面就是:產業化。比如:網際網路+、工業4.0等等一系列可以掛鉤,可以更廣泛。所以說,在後面的報告中,我會著重講這三方面。從“個性化”來講,往往是針對個人的;對於每一個人,“產業化”是對於工業的,“智慧化”算是一個底層的技術。

150Z2115927-C20-4
我們先說一下“個性化”。大資料在“個性化”的發展趨勢也是包括幾點。之前,我們討論了個“性化營銷”,個性化營銷在網際網路應用中是非常重要的技術,也是網際網路打廣告,包括我剛才講的例子都算是個性化營銷,所以在這裡面“個性化”起到了非常強的作用。還有在未來,個性化在醫療很重要的一個方面應用。因為我個人覺得,雖然在現在醫療中,大家沒有提及“個性化”,但將來、未來會起到非常大的作用。包括美國有一些類似於這樣的“個性化”計劃,都是針對於醫療。

150Z2115927-1Z3-5
而在將來、現在也是發生的,“個性化的服務”。怎麼去利用個性化,更廣泛地做更全面的服務。我可能會主要講“個性化營銷”這一塊,“個性化營銷”就是其中有一個。比如:在網際網路公司裡面,舉個例子,大家要是“個性化”,反映在什麼地方呢?比如:他對於使用者可以有很好的理解,通過大家的行為,包括:如果是傳統的零售商,通過其購買行為,比如:通過網上的一些行為等。比如:阿里有使用者的電商資料,百度有使用者的搜尋資料,這些都是使用者的行為。通過使用者的一系列,告訴使用者這個人到底是什麼樣子的,你喜歡什麼,將來可能更有傾向去對什麼更感興趣,這個是一種所謂我們叫“使用者畫像”。把給刻畫出來,這是一個最主要的形式。有了客戶畫像以後,就可以做個性化的推薦和個性化的廣告。

150Z2115927-6260-6
這裡面大家要知道,像廣告是一個非常大的、重要的在支撐網際網路企業的一個模式,就是商業模式。比如:百度基本上所有的收益都是來自於廣告,阿里很大部分收益也是來自於廣告,騰訊現在的廣告業務也是慢慢起來更多,騰訊還有遊戲業務。

150Z2115927-5930-7
在這裡,“個性化”起到非常重要的作用,我們能夠精準的知道每個人想要什麼,這樣可以更好的推薦。如果使用者要知道自己的使用者興趣,然後可以針對某一個使用者更好的展現。其中有一個技術,廣告的點選行為技術,這裡就需要用到“機器學習”知識。

150Z2115927-23V-8
在百度公司中,所涉及到的資料量可以到千億級,而伺服器數量上也是上萬臺的。對於機器學習而言,就如同當時像李院士提到的大資料智慧是一個核心,其前提是大資料,後面才有一系列的機器學習。這包括:使用者可以有很好的計算,可以有更復雜的模型等。其次還包括:有很好的演算法、在現有的時間內、現有的計算時間有很好的結果等。

150Z2115927-G43-9
說到大資料在智慧化上會起到的作用,這是一個未來的十年之內比較大的趨勢。其中重要的一點:就是機器學習的能力。

諸如:百度等很多公司,都會投入很多的力量把大資料的智慧化應用,就是將其作為做前沿研究,並設計實現更好的學習系統。還有一點就是:把這樣的能力變成實際應用,即:做智慧化的系統。從機器學習能力來看,到目前為止有一個比較經典的案例可以看出大資料在機器學習上的作用。

150Z2115927-3U5-10
關於大資料機器學習案例包括:影像分類,ImageNet。在我們之前做了一些機器學習的模型都是基於淺層的模型,當時在這個資料上取得了百分之七十幾的準確率。幾年之內,它的錯誤率從20%幾可以降到5%、6%。

150Z2115927-5561-11
我們用了大資料和複雜的模型,你需要有GPU等等一系列的更好的計算,更好的高效的演算法,這樣你就得出了一個非常強的系統,這個系統可以支援你的智慧化。這裡的智慧化不僅是影像識別,還包括:語音、廣告等等一系列,現在都是有這種智慧化趨勢。我們希望如果要是做這種底層的技術,能夠產生智慧的技術,我們希望把資料量加大,希望嘗試更為複雜的模型,希望把計算能夠在同等計算能力的情況下,能做更強的計算。這幾個趨勢,是目前很多的研究方向,而使我們整個的智慧技術等方面得以集體提升。

150Z2115927-44R-12
對於百度本身來講,搜尋引擎技術其實就是一個智慧化系統。它會為了提升使用者體驗,包括將來的“自動應答”體驗等,也包括商業變現的廣告系統等等一系列應用。

150Z2115927-4H5-13
在此,我認為智慧化的技術在未來有一些關鍵的方面,特別是在人和物理世界相交換,機器能夠從虛擬世界到物理世界的連線,包括機器人等等一系列;其中之一就是感知技術。比如:影像識別,語音識別等等一系列,還有自然語言識別等。

然後,使用者要能夠理解對方的意義,把他變成一個“表示”,而這個“表示”就是能夠自動的進行推理。另外一個關鍵點就是互動,對於智慧化系統而言,其互動技術的實現也是非常重要的。所謂的互動就是使用者和人進行的一個交流;尤其可見,“表示”和“互動”就是一個是使你能夠更好的理解另外一個也是可以輔助的關係。最後還有一個就是使用者決策。決策就是需要使用者做的事情,使用者能產生行動或者產生一個相應。這個包括:使用者連線本身人還有其它的知識,這裡麵包括:使用者要做分析、做決策等等,然後最後產生一個結果。其實搜尋也是有類似的技術,或許將來可以有更好的其他技術。

我舉個例子,搜尋目前你就是輸入文字進去,這是最主要的形式,其實,我們還可以用語音或者影像搜尋。另外,使用者還要把清楚語意。目前在搜尋上互動用的比較少,但是實際上是應該有的。一方面,互動就是你搜了一個選項或者關鍵詞以後,也許使用者還會知道其它的方面內容提示,它(搜尋引擎)會提示到:也許使用者檢索的是另外一個關鍵詞或者是選詞等等。然後,從行動上來講,搜尋就是根據所有的資訊內容,包括之前的資訊提示給使用者做最好的搜尋結果。

150Z2115927-32Y-14
從這個方面來看,現在這些形式在搜尋上其實是相對簡單的。將來這裡面可以做的更好的形式,這時候“更好”的一個就是設計者可以做出一個趨勢,你要說機器人也行,說助理也行。可能大家都知道的話,也是因為動畫片《大白》這裡面是個人的健康助理,它是一個垂直領域的。

百度也在做一些嘗試,有一個比如:小度機器人。這些嘗試希望可以整合到更好的,更加智慧化的,然後可以有更好的使用者體驗,它可以比搜尋引擎要更加進步的能力。對於技術方面,比如:要更個性化,包括我們前面提到的大資料個性化,包括“認知技術”,使用者怎麼去感知和交流。如果有這麼一個助理的話,他希望和使用者交流,包括:要資源整合。然後,我們可以有分析,接著處理一些需求。這裡資源整合的意思,就是使用者要知道什麼地方有東西能夠滿足客戶的需求,這個資源可以是線上資源,也可以是線下資源,然後搜尋引擎會有這種努力。所以未來、將來就會有更加好的形式,能夠滿足使用者想要知道的事情。

150Z2115927-20N-15
另外一個趨勢,就是大資料的產業化。產業化其實有很多,包括:廣告營銷實際上算是一類,這跟“個性化”關聯非常強。還有人工智慧技術,人工智慧技術也可能會產業化。另外就是大資料對於產業升級,還有整體社會上的作用。當然,產業化還有一些對科學技術將來會有非常大的影響,所以我這裡還要討論一下在網際網路以及大資料技術對於產業上,對於社會變革能夠有一些什麼作用和影響。

150Z2115927-DS-16
這裡面產業化,我覺得也是有幾個重要的機會點,這個機會點其實在各個領域現在都有人在嘗試,後面我也會舉一些例子。

其一,做智慧連線,這是最早提出做“網際網路+”的本意。網際網路本身還是從把人連線到某種事情,是做智慧的連線。現在希望人連到線下資源。

其二,人機互補。大資料的智慧技術要幫助人來輔助決策,就是人和計算機交流,而不是說計算機完全解決。也就是說:讓人做原來做不了的事情,這使得人變的也很重要,但是計算機是能夠輔助人。
最後是資料創新。其實所有的這幾個事情的核心就是“提升效率”,這是因為傳統的方式做事情有一些低效的地方。你就想在什麼情況下是低效的,我們怎麼能夠提升效率、改變效率而使其變得高效,這是最核心的地方。

150Z2115927-33K-17
而如果要是任何對我們想要知道機會的時候,進行這個思考,只要你覺得什麼地方有機會能夠提高效率,都應該是值得去嘗試、值得去做的,所以這裡面也是有很多的機會。實際上從網際網路的思維,是連線的思維。它是把網際網路從連線線上到線上,到連線線上到線下。可以做一些服務,比如:可以做醫療、出行、餐飲等等一系列的。怎麼去用網際網路增加它的效率?這是它的核心點,把效率增加。

150Z2115927-L01-18
一個例子,中國有嘀嘀,國外是Uber,它是連線人和車。這個大家可能都熟悉,但是其中有一個智慧技術就是“智慧發單”,當客戶人過來了,他去要一個車,他周圍可能有很多個車,但是客戶需要知道哪一個車是最合適的,最大的優化效率,或者最願意接單,或者是其整個的環境更好。
還有一塊是“智慧定價”,在Uber還是比較典型的,比如:上下班的時候定價會高。這些東西從本意,都是提升整體的行業效率。還有就是智慧的需求,他能知道什麼地方可能更好,告訴計程車司機客戶可能去哪個地方等等一系列。像Uber買了CMU的一個整個實驗室,他們想做智慧駕駛,如果真的做成了,將來就直接用無人車來接就行了。
實際上像這種新興的網際網路公司,像Uber這樣的實際上既是一個大資料公司,也是一個人工智慧公司,而且還有很多的技術含量在這其中。

150Z2115927-3442-19
另外一個是“人機互補”,美國也是有一個比較重要的公司在做這件事情,就是Palantir。大家如果看到過《從0到1》,也應該對Palantir科技比較熟悉。的確他們已經在很多地方在用了這樣的技術,他們的思路就是用人和機。機器不是解決所有的問題,但是機器可以和人相對配合,用人快速的定位資訊,快速的查詢相關資訊,幫助人來做決策。所以人能夠很快的,從海量的資訊裡找到最關鍵的資訊,找到最合適的資訊,然後幫助使用者來實現其所需要的目標。

Palantir公司還去找一些保險金融的欺詐,這是他們原始的,因為原來他們做過一些金融欺詐的一系列的工作。這說明:首先,人機互補要包含了很多技術,一個就是大資料的技術在這裡面,然後還有智慧的查詢,視覺化的技術、關聯分析,異常報警。如果你要用大資料輔助人,這些都是一些比較重要的資料。

150Z2115927-5511-20
百度也做過一些類似的應用,比如:用百度的地圖資料,能夠做一些相關的互補,包括“智慧城市管理”。比如:使用者可以做人口管理、城市優化、城市網路分析優化等等。百度本身是有定位資料,所以他知道人去了哪兒,他完全不需要知道外面的,只是從百度的資料人在地圖上搜了些什麼地方,他去了哪兒。這也屬於人機互動、人機輔助的思想。

150Z2115927-2028-21
包括使用者可以對上海的外灘事件進行分析,也做過類似的嘗試。

150Z2115927-4D6-22
包括:使用者可以做智慧選址。商業需要知道在哪個地方最合適開一個店怎麼辦?這裡面也是可以運用這些資料,做輔助決策。這是一個很大的方向。

150Z2115927-4911-23
還有一些大資料的發展趨勢就是“行業創新”。行業創新裡面,用大資料怎麼去把原來一些行業不是很高效的地方變得更高效?

150Z2115927-4434-24
這裡面我想說一點:當時百度曾經做了一系列的預測專案,我們也是輔助一些各個地方,其中有一個就是旅遊景點的預測。比如:現在這個景點裡面有很多的人,然後我們來預測人數等等一系列。當時還有一些報導。

150Z2115927-N58-25
還有一個就是我們做的一些關於大資料在醫療上的一些創新。網際網路也是願意切入醫療,其實醫療主要有三個方面應用;一個就是病前,可能是使用者希望知道一些基本資訊。

150Z2115927-1b3-26
另外就是患者就醫,就醫現在的一個痛點就是“掛號”。也在嘗試怎麼利用網際網路的方式解決掛號的問題。還有康復,康復包括一系列使用者需要查詢等等一系列的一些互動等等。

從我們研究來看,開始的就是從問診開始。如果使用者要是有一種疾病,他就會去諮詢;但是很多情況下,很多病人都會願意在網際網路上去諮詢。但是搜尋現在這種形式並不是最好的,所以我們嘗試的一個,就是說是把這個變得更加高效,而且更加自然。一方面:就是設計一套預診系統。這一系列的流程並不是為了取代醫生的,是為了給病人更好的體驗,使他了解更多的疾病診療資訊。

150Z2115927-O91-27
其次,就是嘗試打通關於和零售業的一些線上和線下的交流。零售業關心的一個主要問題是如何帶來客戶,然後才是怎麼維持客戶。一方面從線上和線下的角度來考慮這個問題,從線下的客戶,我們可以幫助找到他線上的行為;而線上的行為,當然零售業用的是線下的資料,這裡面不但有線下的資料也有線上的資料。線上的資料可以找到相似的客戶,知道這些商傢什麼客戶對他的價值最高,這樣可以帶來新客戶,而且價值是更高的。

150Z2115927-3149-28
未來的社會將是怎麼樣子?如果我們要是從大資料的角度來講,一方面是“個性化”。這裡的個性化提到的就是當資料足夠多,如果使用者要是有個地方有能力做這些資料的整合,這個當然難度還是比較大的,因為資料有很多問題,一個大的問題就是資料孤島。雖然使用者有好多不同的資料,這些資料沒法整合在一起。但是如果我們做到這一點,機器也許比使用者更知道他自己,或者比你周邊的人更知道你自己。

另外一個方面就是:“智慧化”。智慧化將來可以幫助使用者從人來講,可以更好的來理解自己、幫助自己和進行交流,幫使用者做決策。 也許有一些工作可能機器會替代人工,包括人工駕駛。這裡指的不完全是替代,也許是輔助人工,包括我們剛才提到的輔助決策。總體來講,它會比人工的效率更高。

最後一方面就是“產業化”,產業化一塊“科學性”,在本報告中,我就沒有過多涉及到,但是科學的發展我相信在大資料的年代會有加速的發展且會使其有更大的提升。最後一個方面就是“產業的升級”。產業升級包括:傳統產業的連線項,現在的“網際網路+”,包括產業在工業上的應用。

謝謝大家!

End.

 

自 中國統計網