作者 | 蔡芳芳
編輯 | 唐裡
10 月 31 日,北京建立全球人工智慧學術和創新最優生態的標誌性學術活動“智源大會”在國家 會議中心召開。
會上,自然語言處理領域國際領軍人物、清華大學教授、智源首席科學家孫茂松接受採訪向記者表示:當前,大資料驅動的自然語言處理已經做得不錯,但大知識或者比較豐富的知識驅動的自然語言處理才剛剛起步,智源的目標是實現大資料和大知識雙輪驅動的自然語言處理。實現這一目標的前提是構建一個全世界通用的人類知識庫,這也是智源“自然語言處理”研究方向科學家們現階段要重點攻克的難題。
以下是與孫茂松教授的訪談實錄:
孫茂松:人工智慧這幾年的發展,大家接觸比較多的是影像方面的成果,包括很多 創業公司,像人臉識別、刷臉等等,影像方面的進步非常快。但是影像只是智慧的一部分,人的智慧區別於動物最主要的特徵是語言。人工智慧領域有一句話叫:讓計算機理解自然語言是人工智慧 皇 冠 上的明珠。 下一步人工智慧要害的地方就是想辦法讓機器理解人類的語言,這是自然語言處理在人工智慧學科中的地位。
對於智源的自然語言處理方向,我們也是根據自然語言處理髮展的歷史脈絡設定研究目標。自然語言處理這幾年的進展和影像識別進展背後依賴的基本方法是差不多的,就是深度學習。深度學習最顯著的特點就是依靠大資料,必須要有海量的資料來訓練。自然語言處理相關的,比如語音識別和機器翻譯,大家覺得這幾年還不錯,都是靠大資料驅動。好處就是能使效能飛速提升,但也存在問題, 大資料驅動的深度學習是典型的是黑盒。雖然看起來翻譯得不錯,好像機器理解了這句話,其實完全沒有理解,這個系統在處理複雜語義的時候非常脆弱。
如果一個句子中包含世界知識,翻譯系統經常會被搞得稀裡糊塗。比如公交車上的到站提醒“前門快到了,請從後門下車”,把這個句子給計算機翻譯,現在所有的計算機系統都是不行的,它不知道“前門”這個地方。
下一步我們認為要真正理解語言、攻克人工智慧的難關,需要知識驅動。我們提出口號,大資料驅動的自然語言處理已經做得不錯,大知識或者比較豐富的知識驅動的自然語言處理才剛剛起步。在智源的框架下,我們希望做到大資料和大知識或者富知識雙輪驅動的自然語言處理,這對現在人工智慧的大資料驅動的方法也是重要的突破。做這件事非常難,需要有計算機可操作的人類知識庫作為基本資源,但這個知識庫現在還沒有做出來。雖然全世界範圍內有一些知識庫,但是還沒有真正能夠很好地驅動自然語言處理的人類知識庫,特別是常識庫,可能有一些基於某個角度的知識庫,但得到全人類認可的還沒有。我們希望在常識知識庫、世界知識庫方面做一些嘗試,然後在這個知識庫基礎上研究新的大資料和大知識 結合的人工智慧演算法。如果做出來肯定是一項非常重要的突破,能不能做出來需要看我們的努力。
問:您提到知識和資料互補,不同的人可能會有完全不同的知識,怎麼去提煉人的常識?我們又怎麼實現讓機器學習什麼呢?
孫茂松:知識體系看起來好像每個人都有不同,但實際上人類共同知識的核心是相對穩定的。有一種範疇,在全世界都差不多。比如說人是動物的一種,這一類的知識現在是比較充分的,但更豐富的細節就很匱乏。比如看現在谷歌、Wikidata 等國際上已經放出來的規模特別大的知識庫,其實是大而不強的。我舉個例子,比如關羽,Wikidata 中關於關羽的描述包括關羽是一個武將,關羽是中國三國時期蜀國的一個將領,他生在哪年、死在哪年,他兒子是誰。但我們熟知的關羽的所有事蹟都沒有形式化的描寫,比如關羽過五關斬六將、走麥城都沒有,Wikidata 只是給你一篇文章,它只能做粗淺的處理,沒辦法做推理。這類世界知識現在做得非常不夠,這些知識是客觀存在的,我們需要把這些總結出來,全人類應該有很多是有共識的。
我們希望能做這樣的一個庫,至少做其中的一部分,比如體現北京特色的庫,做得比較深入一些。要做到這一點不能完全靠人工。文字中有這種描述:關羽哪年哪年從麥城開了哪個門趁夜逃走,這句話是有的,但是需要形式化。誰逃走了?關羽。地點在哪?城門。什麼時候?半夜。這些得抽取出來,抽取出來以後,才能把所有句子變成一階謂詞邏輯表示式,相當於變成數學公式,計算機就可以操作了,可以用數學邏輯的辦法來推理,可以比較深入。但前提是必須能對這句話分析出剛才說的結構,這就是自然語言處理的任務。
問:現在有一些學者認為人類很多發明在理論之前,比如先做了飛機再出來空氣動力學,他們覺得這是一個合理的過程。在您看來,黑箱對研究和應用會帶來什麼風險,可能造成什麼問題?
孫茂松:黑箱並不是不好。1950 年圖靈提出圖靈 測試,那就是黑箱 測試。如果我們在那個時候說一定要把人腦的機制搞清楚才做人工智慧,那到現在人工智慧都還沒法做。實際上黑箱並不是貶義的,在不同階段,搞不清人腦的時候就只看外特性,外特性有智慧就是智慧。圖靈 測試偉大的意義在於,我不需要搞清人腦,也可以做人工智慧,這是它最重要的意義,可能很多人沒意識到這點。
黑箱有它的問題,它是不得已而為之,如果能搞清人腦的機制再做研究,肯定會更深刻。比如影像識別很容易被攻擊,就是因為它是黑箱,是端到端的,端和端的情況千變萬化,影像再多也會也例外的東西出現,即使有 99% 的概率可以正確識別,也會有 1% 的例外,那 1% 的例外如果出現某種問題,結果可能就很糟糕。必須有系統性的知識才能有系統性的解決方法,否則這個問題解決不了。
舉個簡單的例子,60 年代機器翻譯業界很有名的一個學者寫了一篇文章,他舉了一個很簡單的例子叫“The box was in the pen”,box 是盒子,pen 有兩個意思:一個是鋼筆,一個是圍欄。翻譯這句話對人來說非常容易,對機器卻很難。首先它要知道 in 是什麼意思,in 是一個小東西裝到一個大東西里邊;第二要知道 box 盒子比圍欄小,所以可以裝到圍欄裡,但不能裝到鋼筆裡,裝不進去。這句話現在用谷歌、百度、微軟的機器翻譯系統翻譯出來都是錯的,都會翻譯成箱子在鋼筆裡,因為它沒有知識,人家沒告訴它該怎麼翻,它只能按端到端的黑盒來做,做的就是錯的。圍欄這個詞出現的頻度很低,鋼筆說的頻度高,系統就挑了一個更有可能出現的詞,就是鋼筆。如果系統具備知識,就能知道這樣翻譯是不對的,因為盒子只能裝到圍欄裡,哪怕圍欄這個詞出現的頻度再低,也只能翻譯成圍欄。
問:您提到要建立知識庫來訓練機器和演算法,讓它在使用黑箱之前優先考慮常識。但是對於何為常識,有一些全人類有共識,有一些沒有共識。有些人可能認為登月是陰謀論,可能還有其他關於地緣政治或者其他方面的分歧。想構建適合全人類的知識庫就會遇到這個問題,這個問題怎麼解決?想要訓練機器去閱讀這些材料,材料應該怎麼選取?
孫茂松:我說的是人類知識的核心部分,核心部分是比較穩定的,也就是所謂的常識。超出常識範圍的知識,相當於觀點,不同人會有不同。我們試圖刻劃常識部分,比如你去餐館,不管全世界哪個餐館,你要點菜、上菜、吃完之後付賬,不付賬就跑人家肯定不幹,這就屬於常識。
觀點是靈活的,為什麼我們要做“雙輪驅動”,因為觀點難以窮盡而且因時而變、因人而變、因地而變,這就要靠大資料,需要從資料文字里面挖掘。光靠知識肯定不行,核心知識覆蓋面不夠,需要兩方面 結合。
另外,知識庫一定要是高質量的,裡面不能包含人為的錯誤,這是基本要求。人類常識和世界知識基本的原則之一,就是要符合事實。
問:如果使用更小的資料集,在現有的研究狀態下可能會導致精度下降,基於保護隱私的考慮,如果有人想致力於用小資料集產出同樣或類似的結果,這個工作是不是很困難?
孫茂松:很困難。目前這一輪大家用的比較火的方法基本都是基於大資料,沒有大資料根本不成。小資料是研究熱點,比如醫療領域要拿到病例很困難,可能通過各種許可也只能拿到幾百個人的病例,如何把學術研究利益最大化,做出好的成果,必須是小資料驅動。小資料就意味著要有知識,要能夠推理和判斷,都是這代人工智慧最大的短板。
現在大家都在研究小資料,目前如果能取得成功,一般都是在特定領域。針對特定問題有相當的知識,在知識的引導下做小資料,才有可能。目前沒有一個通行的公認的解決方案,不像深度學習,有一些基本的工具是全世界都有的。
問:想要打造一個您前面提到的龐大的世界知識庫,最大的難點是什麼?
孫茂松:這個知識庫不可能完全靠專家來寫,寫知識庫需要非常有水平的人,要帶著一幫人做 10 年、20 年,才有可能做得不錯。在中國,這種條件基本不具備,中國科研評價體系急功近利太厲害了,雖然一再號召我們發揚“板凳幹坐十年冷,文章不寫半句空”的科研精神,但現在真正坐冷板凳的人還是太少了。而且坐冷板凳的人還得有水平,沒水平坐一百年冷板凳也沒有用。
做知識庫需要對世界萬物有準確的把握,世界萬物理論上都是相互關聯的,全部描寫是不可能的,一定要抓主要矛盾。這些東西有關係,要把它的重要關係找出來,需要有判斷,這是很不容易的。最早做知識體系的是亞里士多德,他的《範疇論》把世界分成若干個範疇,研究語言的主語、賓語、謂語也是亞里士多德,在中國不太具備同樣的條件。
一個可行的辦法是我們把現有世界各方面的知識庫都拿來,先做一個整合,看能不能汲取一些養分,再從文字中挖掘知識庫。你可以設想,網際網路上所有知識其實都寫出來了,問題是怎麼形式化,分出謂詞、主語、賓語,讓計算機來做這件事很難。但這個事做出來以後,就有可能把網際網路上所有的文字形式化,變成類似前面提到的謂詞邏輯表示式,相當於變成某種公式化,然後就可以往知識庫填充了。如果這條道走通了,問題就能在一定程度上得到解決。但是讓機器分析出主謂賓太難了,現在瓶頸卡在這裡。能不能達到我們的設想,要看自然語言處理技術能得到多大的幫助,這個有很大的挑戰。我們不敢說一定能做出來,但我們正在往那個方向努力,我們認為目標應該要做到這個程度,才有可能解決問題。能否達到不好說,太有挑戰性了,既有難度又有規模的挑戰。
問:圖神經網路最近一年熱度很高,前段時間您的研究團隊也發表了一篇圖神經網路的綜述論文,能不能跟我們聊一聊圖神經網路未來的發展潛力?
孫茂松:圖神經網路本身的演算法研究,總的來說還是中規中矩,並沒有特別的奇思妙想。把現在神經網路的辦法用到圖上是一個比較自然的延伸,這兩年得到 關注是因為端到端基本上走到極致了,科研紅利基本走到頭了,大家意識到端到端有問題,所以要引入圖。引入圖就是為了引入相關的知識,顯式知識還是隱含的知識,兩者有關聯,相當於抽取某種知識放進去,就反映我說的,希望把某種知識嵌進去才有圖神經網路。圖神經網路研究難在於圖本身怎麼構造,這是我個人感覺最有挑戰性的,其他的方法研究反而不是很難。原來圖方面已經有很多工作,圖的經典演算法非常多,圖神經網路是圖演算法和神經網路演算法比較自然的 結合,這有挑戰,但是挑戰不是特別大。圖如果做的很淺,即使把圖神經網路放進來,效果也有限;如果圖包含的知識很多,可能就難,目前對圖的應用還是相對簡單。
問:現在大家都到了對深度學習開始反思的階段?
孫茂松:現在不是反思,走到這基本上深度學習的好處我們享受得差不多了,它的不足不是做得不好,而是因為它的方法天然就有某種缺陷,大家都碰到了這個問題,不用反思。比如機器翻譯,谷歌基本上把全世界雙語語料都整全了,按理說功能非常強大,但還是解決不了“Box was in the pen”的問題。翻譯要做到信達雅,信現在還沒做到呢,更不用說達雅。那要怎麼做到信呢,大家現在都意識到深度學習好像不能解決這個問題,沒有知識庫就解決不了。端到端的功能非常強大,但是有時候又不像我們想象的那麼強大,這不是反思,碰壁了就得思考。
問:您怎麼評價當前國內在自然語言處理領域學術研究的現狀?您覺得做的好和不好的點在哪?
孫茂松:國內自然語言處理從研究角度來看,我認為在國際上應該是處在一線,在最好的之列,並不遜於史丹佛、MIT 這些機構。但是自然語言處理缺一個特別重要的里程碑式突破,比如影像領域有李飛飛團隊的 ImageNet,這樣一個特別重要的進展。自然語言處理裡面有兩個方向有比較大的進展,一個是語音識別,一個是機器翻譯,這兩件事都是由公司在往前推。大學的研究如果從發表高水平論文這個角度來說,國內做得不錯,從定量指標來看,我們實際上做得不錯。但是這個領域還要看效果,不能光看論文,這方面我們就弱了,反而公司在引領潮流,因為需要強大的計算能力。從研究角度我們做得還不錯,並不意味著我們整體做得不錯。坦白說,在 NLP 領域我們跟國際上最好的學校做的差別不是太大,反而在比如語義資源建設上,美國有 WordNet,我們沒有,當然國內有 HowNet,但是 HowNet 不是大學做出來的。
問:現在有很多成果都是工業界做出來的,這個趨勢會延續下去嗎?
孫茂松:工業界在享受學術界得到的創新,0 到 1 這個事基本不是工業界做的,像深度學習的 0 到 1 是大學做出來的,1 到 2 大學也在做一些。再往後走,工業界就可以上手了。大學需要在 0 到 1 這個階段發力,才能真正把方向定清楚,2 到 N,大學是做不過企業的。當然這個過程有時候是分成 0 到 1、1 到 3 和 3 到 N。0 到 1 是原創,1 到 3 還是有一些技術科學的問題搞不清楚。我們現在做得比較多的是 1 到 3,而工業界也開始做 1 到 3 了,大學和工業界比就沒有太大的優勢。大學就應該放手,不去做 3 到 N。大學應該在 0 到 1 方面發揮作用,這就涉及到更大的問題,涉及到人才培養,涉及到錢學森之問了。