重磅 | 李飛飛最新演講:ImageNet後,我專注於這五件事——視覺理解、場景圖,段落整合、視訊分割及CLEVR資料集

AI科技大本營發表於2017-10-27

編譯整理|AI科技大本營(微訊號:rgznai100)

2017中國計算機大會(CNCC2017)於10月26日在福州海峽國際會展中心開幕,大會為期3天。

而就在今天上午,李飛飛、沈向洋、湯道生、馬維英等重磅大咖紛紛登臺演講。

據悉,史丹佛大學人工智慧實驗室和視覺實驗室主任李飛飛此前已被邀請兩屆,今年終於來參會,帶來了其實驗室的最新研究成果——實時視訊描述。李飛飛從5.4億年前的寒武紀大爆發開始講起,強調了視覺是智慧的基石;而作為微軟全球執行副總裁微軟五名核心成員之一的沈向洋博士也參加了會議,他也帶來了犀利的觀點:得語音者得天下

AI科技大本營第一時間將李飛飛英文演講及沈向洋的中文演講整理出來,附PPT截圖,希望對你有幫助。


李飛飛:ImageNet之後,計算機視覺何去何從?

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

今天,我就想和大家來分享實驗室的思考和一些比較新的工作。

由於我在國外生活的時間比較長,我可能說英文比說中文要好一點兒。所以,我就要用英文來做這個演講,偶爾會插一些中文詞。謝謝大家。

今天我的主題演講主要是關於計算機視覺。

要聊這個話題,首先,讓我們先從5.4億年前說起。

那個時候,地球基本上沒有陸地,全是海洋。為數不多的低等的生物就生活在海洋裡,當有食物漂過來時,這些生物就趕緊將其吃掉以維持生命。

自那起的1000萬年間,動物的種類和數量迎來了大爆發 。生物的種類從少有的幾種,迅速增長為幾千種之多。這在歷史上被稱為“寒武紀大爆發”。那麼,是什麼引起了這場大爆發呢?

幾年前,澳大利亞的科學家 Andrew Parker找到了答案。

大約在5.4億年前,有的動物開始進化出了簡陋的眼睛。對於一個個體來說,這沒有什麼大不了,不就是多了一個小孔,這個小孔能接收光線,僅此而已。但這對於整個地球而言,可就是一件改變整個生命歷程的大事。

就因為有眼睛,動物們看得見食物了。他們可以從被動獲取食物,變成主動尋找食物。他們學會了隱藏,學會了伺機而動,也學會了快速出擊。

於是,動物的存活率大大提升,而大幅提升的存活率又大大促進了生物的進化。可以這麼說,正是因為視覺的誕生,才有了寒武紀大爆發。

從那以後,動物們開始進化出各種各樣的視覺系統。實際上,視覺已經變成了動物大腦中最為重要的感知神經系統。因為發達的視覺系統,讓他們的生命不斷延續,種類不斷增多。

將目光收回到人類。

視覺讓人們看到這個世界,看懂這個世界,讓人們有能力不停地交流、合作、互動。

在人類的大腦中,視覺神經系統非常重要。甚至可以這麼說,視覺是人類智慧的基石。

正因為如此,我對於計算機視覺這項工作才尤為著迷。這可是人工智慧的關鍵環節啊。可是,計算機視覺應該從哪些地方模仿人類的視覺呢?哪些才是能影響到計算機視覺的里程碑式的事件呢?而且人類對目標識別到底有多擅長?

早在60年代和70年代,認知心理學家以及視覺科學家就指出,人類擁有的視覺系統無與倫比。

有一個來自麻省理工大學的著名實驗是這樣的,我現在要向大家連續播放多幀畫面,每幀的顯示時間僅100微秒。其中,只有一幀的畫面裡有人。你們能找出來嗎?可以舉手示意我一下。

這可不是一個IQ測試,大家儘可以放輕鬆。

實驗的結果是:大多數的人都可以找到這一幀,看出在這一幀中,有個人立在那裡。這太讓人驚歎了!

實驗之前,你不會知道這個人長什麼樣,是男人還是女人,這個人穿著什麼衣服,是什麼姿態。但是,你的視覺系統卻能在如此短的時間內快速地找到這個資訊。

1996年,神經學家Simon J. Thorpe及團隊釋出了一項研究,通過腦電波來觀察人腦對於影象識別的速度。他發現,僅需 100 微秒,大腦就會發出一道區分訊號,對畫面中的物體是否為動物做出判斷。對於複雜目標物件的處理能力,構成了人類視覺系統的基礎。

這個實驗對於計算機視覺的影響巨大。回望20年前,我們能清楚地看到,正是對目標物體的識別的研究促進了整個計算機視覺的大發展。

最近,大家都很瞭解與ImageNet有關的先進的影象識別。其實,從2010年到2017年,ImageNet挑戰了傳統的影象分類。這八年間,我們的社群取得了令人矚目的成績,將錯誤率從 28% 降低到了2.3%。在攻克影象識別的難題的征途上,計算機視覺的研究者們共同努力,取得了非凡的成績。當然,解決影象識別難題的重要里程碑之一是在 2012 年,這是 CNN 第一次在利用大資料進行監督學習領域展現出令人印象深刻的能力。從這一點出發,我們開始進入深度學習革命的新紀元。

但是,我今天的主題並不在ImageNet。固然,ImageNet對人工智慧有重要的貢獻,但是我們必須往前看,看看有什麼技術可以超越ImageNet。影象是視覺體驗的基本要素。但是,在影象之上,還有一些需要探索的東西。

視覺關係理解

比如,有兩張圖片,當我遮擋住其餘部分,只留出一兩個要素時,你會覺得它們很相似。但是,當你看到整張圖片時, 你會發現,它們呈現了兩個完全不同的場景。

這說明影象理解非常關鍵。它超越了ImageNet,和其所代表的影象識別。

那麼,視覺關係的預測或者理解難在哪?

當我們給計算機一張圖片,我們需要演算法通過識別關鍵物件來定位物件的位置以及預測物件之間的關係,這就是視覺關係預測的任務。

過去有一些針對視覺關係的深度研究。但是大部分此方向的研究都侷限於一些特定的或者普遍的關係。而現在,由於計算機在資料和深度學習能力上的提高,我們可以對視覺關係進行更深層次的研究。

我們使用了一個卷積神經網路視覺表示的聯結,以及一個估計互動式視覺元件之間關係的語言模組。

我不會深入這個模型的細節,只是簡單地介紹其結果。我們的模型去年發表在ECCV,能夠估計特殊關係,對比關係,非對稱關係,動詞和動作關係,以及位置關係。因此,我們能夠估算出場景的豐富關係,不只是簡單的感知物件。

相比於目前最先進的技術,我們對基本測試有很好的效能表現。我們不僅能夠進行關係預測,實際上還能對未知的關係進行理解(zero-shot understanding)。例如,在我們的訓練資料集中,我們能發現坐在椅子上的人或者站在地面上的消防隊員。但在測試時,我們有人坐在消防栓上等類似的關係的圖片,而實際訓練時很難收集大量的訓練例項。但我們的模型可以做到對未知東西的學習及理解。這裡還有一個例子,馬戴帽子,實際上另一個關係人騎馬或人戴帽子更為常見。自從我們去年發表在ECCV的工作以來,關係預測的工作已經雨後春筍般發展起來。有些工作的效果已經超過了我們一年前的結果,但我個人很高興看到社群不再侷限於ImageNet提供的內容,而去思考更豐富的場景理解。

但為了做到這一點,我們必須用基準資料集來支援社群。我們已經看到了ImageNet對物體識別做出了特別大的貢獻,但作為一個資料集,這是一個有侷限的資料集。它只有一個資訊位,就是場景中的主要物件。ImageNet之後,社群的同事提出了許多關於資料集的有趣想法。Harry(沈向洋)已經提到的微軟的COCO框架可以識別場景中的更多物件,以及用一個簡短的句子進行描述。但是,還有更多的內容需要解決,特別是物體間的關係,問答,及針對影象場景的問答。

自動生成場景圖

三年前,我們開始收集有關的資料集,目的為了深入場景內容。我們真正關心的是關係,我們將視覺世界視為相互關聯的場景圖。

場景圖是表示物件和關係的基本方式。

通過三年的努力,我們做出了一些通用的資料集。這個通用的視覺資料集包含10w多張影象和對其進行的420萬個影象描述,180萬對問答,140萬標註好的物件,150萬個關係和170萬個屬性。因此,這是一個非常豐富的資料集,其目的是推動我們超越名詞,開展關係理解,紋理推理等研究。

我們已經展示了關係表示,還有什麼其他事情可以做,或者視覺資料集是用來做什麼的?

我要告訴你另一個稱為“場景檢索”的專案。

這實際上是計算機視覺中的一個老問題,很多人都研究過。這是一個相對已經成熟的產品,有點像谷歌影象搜尋。

當我在Google輸入“男人穿套裝”或者“可愛的狗狗”這個詞後,系統會返回給你漂亮的照片。你可以看看結果,非常有說服力。

但我用更復雜的句子,比如“男人穿西裝,抱著可愛的狗”呢?效果就很難說了。

我們希望對我們得到的東西有更多的控制,更豐富的場景檢索。然後,場景檢索模型就沒法實現了,因為它是基於物件的,它並不真正地理解關係。

這裡有一個例子。我想獲得一個男人坐在長凳上的場景,如果我只是基於物件搜尋它,我會得到分離的物件或者錯誤的關係。也許我可以新增一些屬性,但它會丟失物件和其他東西。但是當我新增關係和物件時,我可以立刻得到更加有意義和精確的場景。這就是場景檢索的理念。

我們之前的一個研究是如何表示非常複雜的檢索請求,就像這個描述:一個滿頭灰髮的老女人戴著她的眼鏡,穿著一個敞懷的的黃夾克,等等等。一旦我們有這樣的場景圖,它就變得更容易,成為了一個圖匹配問題。此前我們有在專有裝置上訓練過它。完全可以想象,我們最近幾年可以用深度學習技術將其發揚光大。需要特別注意的是,場景圖是描述複雜場景中豐富內容的基礎。

下面是有關臥室的另一個例子,以及如何使用場景圖來檢索它。這一切都是可行的,它用新的方式來表示複雜的意義和連線的場景。

但是,你們至少應該先問我個問題,她是怎麼得到這些場景圖的?這看起來不容易。

事實上,這在實際應用環境中是完全不可想象的。當我去百度搜尋,或者Bing搜尋,或者谷歌搜尋詢問一個影象時,你如何構造場景圖呢?所以我們真正需要做的是自動生成場景圖。

關於自動生成場景圖的論文我們發表在 2017 CVPR 上。

我們使用了一個自動場景圖生成模型來驗證傳遞進行的查詢訊息,感興趣可以檢視我們的論文。相比於其他基準模型(baseline),此模型更接近於真實的場景圖處理。

我們很興奮地看到這個通用的視覺資料集向世界傳達了場景圖表示的概念,我們正在使用這個基準並且鼓勵社群去審視有關關係條件,場景檢索生成等問題。但這些只是越過ImageNet的一些早期問題,它仍然相對簡單。他們只是有關場景的。當你睜開眼睛時,你首先看到的是物體、關係。但視覺智慧或人工智慧比我們要強,那麼,超越早期對畫素的感知外還有什麼呢?

給大家展示一下 10 年前我在研究生時期做的一個實驗,這個實驗是關於人類認知的。我讓參與測試的實驗物件坐在電腦螢幕的前方,然後讓他們看一張閃爍地非常快的圖片,然後這張圖片很快就會被桌布遮擋起來,此處的遮擋是為了控制圖片在螢幕上停留的時長,停留的時間其實非常短。一小時我給他們 10 美元,然後他們在看過圖片之後,需要寫出自己所能記得的關於這張圖片的所有描述。

可以看到,這裡的場景切換非常之快,其中最短的圖片展示時間只有 27 毫秒,也就是 1/45 秒,而圖片停留的最常時間也只有 500 毫秒,也就是 0.5 秒。讓人驚奇的是,我們發現人類能夠將圖片場景描述的非常詳細。只需要 500 毫秒,人類就能夠識別出非常多的內容,比如任務、動作、穿著、情緒、事件、社會角色等等。就算只有 40 毫秒,人類也能夠對(圖片)環境有大致的理解。因此,在視覺系統和描述場景的能力或者語言的能力之間,有一種不尋常的聯絡。我們的實驗室現在正在研究的已經不只是單純的“感知器”,視覺和語言之間的聯絡、視覺和推理之間的聯絡非常非常深,現在的研究還只是開始。

從句子整合到段落

我們最早開始做人類和語言相關的工作可以追溯到 2015 年。

當時,世界上還很少有實驗室用和我們一樣的想法做影象描述:用 CNN 來表示畫素空間,用 RNN 或者 LSTM 來表示序列模型、生成語言。

當時剛剛興起了第一波演算法浪潮,可以根據現有圖片自動生成描述的句子。在這個特殊的例子中,穿著橘色馬甲的建築工人正在路上工作,穿著藍色T恤的人正在彈吉他。這是一個讓人印象深刻的例子,但是一個視覺場景並不是短短的一句話能夠描述的,而是可以分成不同的組成部分,因此我們接下來就做了“dense captioning”:給定一個場景,我們不僅僅只看這張圖片中的整體內容,而是看不同的部分,看感興趣的區域,然後嘗試用語言來描述。

這裡有一個例子,這張圖片的描述由很多不同的部分組成:一部分是關於人騎在大象上,一部分是關於人坐在長椅上,一部分是關於大象本身的描述,一部分是關於大象身後的森林。比起短短的一句話,這種描述方式,能夠提供更多的圖片資訊。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

這是去年釋出的,今年,就在幾個月以前,我們又往前進了一步,開始生成段落。

當然,你可以說只要先生成句子,然後將句子串聯起來就成了段落,但是通過這種方式生成的段落並不能令人滿意。我們並不想隨意地將句子組合起來,我們必須思考如何將句子組合起來,如何讓句子之間的過度更加自然,這些就是這篇論文背後的想法。儘管我們已經可以生成段落,但是結果仍然不能令人滿意,但是這種方式可以完整地描述場景內容。

自動分割視訊關鍵部分

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

就在幾天前,我的學生在威尼斯舉行的 ICCV 大會上展示了我們的工作。我們將原來靜態圖片上的工作延伸到了視訊上,在這個領域,如何檢索視訊是一個問題。目前,大部分關於視訊的工作,要麼是通過一些關鍵目標來進行檢索,或者對一個事件(如打籃球)進行整體描述。

但是在絕大多數的長視訊中,裡面發生的事件不只一個。於是我們建立了一個包含 20000 段視訊的資料集,並對每個視訊進行註釋,平均每個視訊 3.6 個句子。然後我們提出了一種能夠在整段視訊中臨時檢視的演算法,它能夠自動分割視訊中的關鍵部分,然後用句子描述出來。

對於其完整的模型結構,不過我不打算細講。這個模型的開始的部分是對視訊中的 C3D 特徵進行特徵編碼,剩下的部分則是如何找到關鍵部分並生成描述。

我們跟其他的方法進行了對比,儘管我們是第一個這樣做的,但是和其他的方法相比,我們的方法展現了非常不錯的前景。

這種工作才剛剛起步,但是我非常興奮,因為在計算機視覺領域,人們對視訊的研究還不夠,而這種將視訊和自然語言處理連線起來的能力將會創造非常多的可能和應用領域。

從SHRDLU到CLEVR:模組世界+自然語言

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

演講的最後部分仍然是關於視覺理解和自然語言處理的,但是在這個特殊的例項裡,我想將語言當作推理的媒介,不僅僅是生成描述,而是去推理視覺主題的組成性質。

讓我們回到 40 年前,當時 Terry Winograd 建立了一個早期的 AI,叫作 SHRDLU。SHRDLU 是一個“Block World”。人類提出一個問題:“ the blue pyramid is nice. I like blocks which are not red, but I don’t like many thing which supports a pyramid. Do I like the grey box?”,在這個世界裡,人類會問出非常複雜的問題,而演算法 SHRDLU 需要生成答案:“ No.( Because it supports the pyramid. )”因此這個過程裡面涉及到很多的推理。在那個時候,SHRDLU 還是一個局域規則的系統。如今,我們將這種想法用現代的方法重現,在simulation engine(模擬引擎)中使用現代的圖片創造另一個資料集——“CLEVR”。

“CLEVR”是一個擁有無限多物件模組的資料集合,我們可能產生不同型別的問題。我們生成了各種各樣的問題:一些問題可能是關於attribute(屬性)的,比如“有沒有哪些大型物體和金屬球的數量相同?”;一些問題跟counting(計算)相關,比如“有多少紅色的物體?”;一些問題和comparison(比較)相關;還有一些問題與special relationship(特殊關係)相關,等等。

“CLEVR”是一個非常豐富的資料集,由問答集組成,與場景中內容的含義有關。我們如何看待我們的模型呢?與人進行比較。我們發現僅僅使用venilla,CNN,LSTM作為訓練模型,人類仍然比機器好得多。當機器的平均效能小於70%時,人類可以達到93%左右的精度。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

所以有一個巨大的差距。我認為我們差距的原因在於我們的模型不能明確推理。我們把相關的研究也發表在剛剛結束的2017ICCV大會上。

大致原理是,模型首先提取問題並通過自然語言訓練生成器。然後我們利用這個模型進行推理,最後得出這些答案。總的來看,是訓練一個生成器模型。然後,訓練模型和其預測的答案。最後,聯合查詢及模型,可以對最後的QA給出合理的結果。我們的模型比執行基線(baseline)好很多。

由於李飛飛在演講中提到了自然語言處理與視覺識別的結合,也提到了微軟研究院沈向洋對於自然語言的描述等研究,因此,我們也將沈向陽的演講內容整理如下,希望對你有所啟發。


沈向洋:自然語言中的描述、對話和隱喻

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

最近我一直講的一句話就是“得語言者,得天下”,只有我們切身明白自然語言是怎麼回事才能夠真正把人工智慧講清楚。

在這裡,我側重三方面內容,主要講講如何一步步深入研究自然語言:

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

第一步,表述方面:通俗來說,就是如何利用自然語言技術表述一個事件。如今關於表述的研究,已經發展得非常好了。

第二步 對話及智慧:相對而言,這個比較難一點。對話即智慧,這是目前來說非常強調的一點。

第三步 機器意境:相比以上兩點,這點比較懸疑,就是說整個機器意識,到底應該如何理解?意境到底是怎麼回事?延伸來說,為什麼有些人講的東西你覺得比較有深度?

剛剛提到的三點實際是可以理解為三個層次,正如小學、初中、高中所訓練的作文寫作一樣。

第一層次:小學老師說,你要把一件事情清楚寫出來,這就是記敘文。

第二層次:可以總結為正論文。也就是對話層面,簡單來說就是要把一個問題講清楚,論點、論據、論證缺一不可。其實我們大多數的科研論文都是處在這樣一個level。

第三層次:當你的文章開始寫得有點水平時,老師說可以寫詩歌、寫散文,寫一些表達自己心境、情懷的文章,運用到我們研究的自然語言理解中,也就是機器意境這個層次。

下面,我會通過具體的案例來詳細解析這三個層次的研究。

首先,講一講如何用機器學習來做自然語言表述。這裡我用一個比較特別的例子——降低視覺和自然語言結合,同大家解釋一下。

想表述清楚這個問題,就要提一下我們一直以來推出的微軟認知服務(Microsoft Cognitive Services),其中有一個很特別的東西,名為Traction ball。就是說,上傳一張照片後,它可以直觀告訴你,這張照片中到底有什麼以及如何描述這張照片。

此後,基於這個技術,我們做了一個應用軟體——Saying AI,它可以為盲人服務。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

回到照片描述的這個問題上,也就是我剛才提到的Traction ball。這個特殊的技術,最基本的原理就是計算機視覺的API,稱為Image Capture。

例如,配上一張照片,一個人游泳的照片,在這張照片中我們能夠得到什麼樣的表述呢?能不能檢測到說照片中的人數,人的動作、表情等很多資訊?賣個關子,如果大家有興趣的話,可以到微軟的網頁上瀏覽,會有很多技術涉及到這方面。當然我們除了Traction ball之外,還有很多其他的類似的視覺服務,這只是一個很好的具有代表性的例子。

值得一提的是,我們在做Traction的服務時,專門做了一個標準資料集,叫做Microsoft COCO。在COCO的研發中,我們也一直與其他的系統做過可行性的比較。實踐表明,過去一年的時間內,我們做Traction是比較出色的,但從資料的角度出發,如今微軟研究院做的系統大概是26.8%的準確率,人類目標希望達到63.8%,我們確實還有很長的一段路要走。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

如果深入瞭解的話,Traction的服務除了標準資料集之外,還會涉及影象描述。影象描述主要想解決什麼問題?實際上可以定義為計算機視覺和計算機語言交匯的地方。首先要具備一個語意空間,隨後就可以將整個影象的空間和特色投影到文字表述,通過字、句、段來呈現。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

例如,這是一個網球場,一個人拿著球牌,在機器表述中還有沒有表現出來的要素,這些都是我們技術提升的方向。所以語意空間是連線影象和文字的有效工具,於是我們做了一個深度結構語意的模型DSCM,在這方面又有了巨大的空間提升。

談一談有關表述的產品釋出出去後還會有什麼問題呢?

所謂Diploma dreamer research,最重要的一點就是你釋出出去之後,使用者會在兩方面進行輔助,提供更多的使用者資料以及提供建議,幫助你意識到這個系統的問題在哪裡。早期,更多是使用者覺得系統或者是產品如何;現在更多是我們自己講,我們覺得系統怎樣,如果做一個correlation,就會對比清楚明瞭。

問題一:有一些做的真好,我們說好,使用者也說好,這些通常是一些很自然的場景,叫做In natural photo,一些common objects,例如城市的一些雕塑等。

問題二:我們覺得做的不太好,但使用者覺得做的好,有一些很自然的場景,就是加上這種型別的照片,一定程度上可是我們的confidence比較低,但使用者覺得挺好。相反,有時候我們覺得還行,但是使用者覺得不行。

問題三:我們也覺得不行,使用者也覺得不行。例如一開始做raiseman分析的時候,一些照片從影象特徵分析開始就有問題。

做完這個對比分析後,我們得出了什麼重要結論呢?在做大資料的時候,在做這樣AI的問題中,大家一定要明白,要分析資料,就是You know want you know、You know want you don't know、You don't know want you know and You don't know want you don't know,所以你要做這樣一個分析。

如今,相關產品不斷迭代,技術不斷更新,模型架構不斷趨於精準,那麼基於這類技術,落地應用情況又如何?

例如,在我們的辦公室軟體中,使用者數量非常大。例如Power point,今天如果你做PPT的話需要上傳一張照片,我就可以告訴你,這張照片大致上可以說用怎樣的Image Capture。如果覺得不是很perfect的話,可以建議其中用一些什麼樣的object,也可以考慮要不要這樣去用。此外還有之前提及的SAYING AI,它是專門為是為有挑戰的人士(盲人)準備的。

一直以來,我們不斷思考人工智慧最後的目的是什麼?人工智慧的目的是打敗人類還是幫助人類?對於微軟來說,我們覺得人工智慧的目的是幫助有需要的人類。在此基礎上,我來講講對話與智慧。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

對話就是智慧,智慧在於對話,你問我,這樣表述到底是什麼意思?其實回答這個問題之前,應該瞭解兩件事:機器閱讀理解其實是從從回答問題到提出問題;問答對話生成是從一問一答到提出問題。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

目前深度學習確實在語言智慧方面幫助很大,我們現在可以用很多深度學習的方法去完成對語言的深度理解,不僅能夠回答問題,還能夠提出問題。那麼問題來了,怎麼去提出問題?讀一段書,你要從文字里面找到關鍵點,然後要圍繞這些關鍵點的話,這就可以生成問題。

最近我在加拿大買了一家做的很不錯的AI公司,叫做Mover。主要是在做reading、capture,他們最近發表了一篇論文就解釋瞭如何找到問題並提出。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

當然不能光提問題,提問題的意義就是現在還知道答案,答案是three,這是我們現在很努力在做的事情。AI提了一個很有趣 的問題,就是說“How many breakers?或者record?

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

不僅僅是回答問題以及詢問問題,更重要的事情是要具備一個連續對話的系統。現在我們用微軟聊天完成小冰的架構,主要就是要做一個對話深層模型,其中包括一個記憶機制。做之前要知道談話的內容、觀點以及主題,做這樣一件事情之前,首先要有一個record,接下來要有一個attention,attention這樣一個model。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

談到現在的關注點,整個過程中,要對對話整體的情緒和情感做一個建模,對使用者的畫像,也就是使用者要有足夠的理解。在這上面,綜合使用者的上下文和AI的上下文,再加上整個使用者當前的輸入,你就可以預測接下來應該講什麼。但問題還遠沒有那麼簡單,當你有這樣一個連續對話,長程對話的時候,應該想到必須要有一個引導機制,不然整個聊天會沒有方向。

所以,應該有這樣一個focus,要加上一個話題引導機制,同時還要有相關的興趣話題在裡面。所以滿足這兩個非常重要的方面,就是對話即智慧。

相對來講,我們提出的問題,並不是那種可以給出很多答案的問題。當我們在機器的描述到機器的對話,到底智慧體現在哪裡呢?僅僅是能夠規劃,那還不算是真正的智慧,真正的智慧最應該體現在這個對話中。

以圖片舉例,圖片能夠被詮釋成Capture,但這些Capture到現在為止僅僅是一個客觀描述;也許更加有突破性的事兒,就是一張照片出現之後,不僅僅具備客觀描述,更重要的是對它有一個主觀評價。甚至說,一張圖表示一個意境,可以從這張圖片出發做詩,意境到底體現在哪裡?什麼是天馬行空的意境?為什麼古人講只可意會,不可言傳,怎麼體現出來的?

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

由此展開對機器意境的一個詳細的解釋。我覺得我們可以建一個模型,可以講的很清楚AI到底要解決什麼樣的問題。到現在為止,通過自然輸入,語音也好、語言也好、手寫也好、鍵盤也好,機器把這些自然輸入做成機器的representation,在做這樣一個深度學習,就出現了一些機器意境的結果。

今天絕大多數人工智慧的科研都停留在這一步,機器的結果出現後就結束了,真正有意義的實際上是要繼續下一步,也就是反向推理。要把機器的結果,通過反向推理,讓人可以理解,讓人能夠感覺講的到底是什麼。

下面,我來講講我們是如何將以上三個層次的技術與理解應用到小冰上。比如說詩歌這件事情,每個人寫,每個人讀,意境不同,理解可能都很不一樣,為什麼?

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

讓我們看看小冰的圖片評論,例如今天大家用小冰聊天機器人。如果描述的話,一隻腫了的腳,這就很了不起,但評論說傷的這麼重,疼不疼?這太神奇了,怎麼能夠知道呢?

圖中有兩隻貓,這也很了不起,很多人都可以做到。但評論說,小眼神太犀利了,真了不起。

第三個,表述比薩斜塔,這能做出來也很了不起,誰知道這是不是比薩,評論說你要不要我幫你扶著?我們需要的就是這個結果。所以一定要在補充最後一步,才可以讓人更好的理解機器。

最近微軟做了一個非常激動人心的工作,小冰寫詩。上線了大概幾個月,在微信上,全國的網民(小冰的fans)一共發表了22萬首詩,這是個什麼概念呢?就是中華人民共和國到現在真正發表的詩歌可能還沒有這個數字。

通常大家都覺得,自己的詩寫的不夠好,還沒到到真正刊登的程度,只在自己的微信朋友圈釋出就可以了。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

小冰是如何作詩的?

首先,通過tool把整個照片的意思搞清楚,這是街道、城市、紅綠燈,很繁忙。第一步是先要生成單首詩、一句詩,做法是一個前向的RNN,再加上反向RNN的模型。我們現在正在寫這篇論文,應該很快可以發表,到時候大家可以再批評。

一句詩出來後,再加一個基於遞迴神經網路的一個laid generation approach,例如從這張照片出發,我們可以產生一首詩,大意是城市在他身後緩緩的流動,我的生活忙碌,我們在沒人知道的地方寂靜,嘴邊掛著虛假的笑容。你問我這個人到底講什麼?我說我也不知道這個人到底講了什麼。

我自己覺得,AI最了不起的,就是做人腦的延伸,對於人腦的理解,最重要是有兩個方向,一個叫做IQ,一個叫做EQ。小冰寫詩就是這個意思。

任何一個科技時代,我們都會去想改變我們的事。當年的PC時代,是作業系統和應用軟體;後來的網際網路時代,是瀏覽器加上搜尋引擎;後來的移動時代,APP為王;現在AI時代就說到了對IQ、EQ的理解。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

我們非常高興小冰這個產品已經登陸中國、日本、美國、印度、印尼五個國家,目前有上億使用者。我自己非常自豪這個產品從北京做起,走向世界,我覺得其中最重要的一方面就是在人工智慧的發展過程中對自然語言的理解。

史丹佛大學李飛飛最新演講:ImageNet後,我專注於這五件事

最後,我還是要強調,接下來的研究方向就是自然語言,就像非常了不起的一首詩所言,“得語言得天下,不要人誇顏色好,只留清晰滿乾坤”。


相關文章