上週,微軟AI講堂的首站來到了清華大學。此次分享會聚焦人工智慧領域的自然語言理解方向,清華大學電腦科學與技術系教授、黨委書記孫茂松老師以及微軟亞洲研究院副院長周明博士兩位自然語言理解領域的頂級專家分別從不同的角度帶來了他們的分享。
繼此前分享了周明博士的演講:自然語言對話引擎,今天與大家分享的是清華大學電腦科學與技術系教授、黨委書記孫茂松老師的演講:運用之妙,存乎一心——從機器翻譯到古詩生成。
演講全文如下(文字內容略有精簡):
大家下午好!我今天演講的題目叫做運用之妙,存乎一心——從機器翻譯到古詩生成。這是來自岳飛的一句話,意思是說可以不排陣,照樣能打好仗,原意為要有靈活性。大家都知道一篇中文翻譯成英文,這是機器翻譯。而古詩生成則是計算機系統自動作一個古詩,看似這兩件事差的很遠,但實際上計算模型是一樣的。在這個意義上,我們也可以叫做運用之妙,存乎一心,這個一心就是計算模型,也是我今天要講的。今天的演講分為四個部分。
第一部分,語言計算之利器:LSTM神經網路
LSTM(Long Short-Term Memory,長短時記憶)神經網路主要是針對語言。自然語言就是人類說的語言,人類的語言極其重要。《人類簡史》一書中提到,大概在180萬年到200萬年前,原始人開始直立行走,而直立行走對人的發展產生了一系列的變化。其中有一個很重要,那就是直立行走後導致的喉部,即與語音相關的器官發生了極大變化,適宜說話。到了大概10萬年前產生了語言。
大概7萬年前,人類的祖先——智人所向披靡,有學者說智人之所以能達到這個境界就是因為有語言。語言最大的好處就是大家可以共同商量對策來解決問題,所以生存能力就會極大的提高。
人類文明在五六千年左右有了文字,中國的甲骨文在3300年前就有了。這也是人區別於動物的一個最本質的特徵。所以語言的計算是人工智慧最核心的部分,這個從人工智慧發展的歷史上就可以看出來。
當然,語言的計算很複雜,比如貌似最為簡單的分詞問題。“一行白鷺上青天”裡和“國家總理一行外出訪問”,這個“一行”含義就不同。這就需要語言的知識。有些分詞問題的解決還同時需要世界的知識。
這幾年,深度神經網路取得了很大進步,最早是在影像和語音領域,而在這兩個領域上的突破都和微軟有直接的關係。一個是2015年微軟亞洲研究院的研究員將神經網路的層數提升到了152層,影像識別的能力最終超過了人類。再一個是語音識別方面,微軟用深度學習將語音識別的錯誤率降到了5.9%。
但是語音識別和影像識別基本上還是屬於人的感知層面。動物也有影像識別和聲音識別的能力,但如果加入語言的概念,動物就沒有了。
在機器認知方面,自然語言是一個很重要的部分。從去年開始,深度神經網路用於自然語言處理的效果開始顯著顯示出來了。一個代表性的工作是Google的機器翻譯,他們用的是剛才提到的LSTM模型。谷歌給出的實驗結果表明,假設完美的翻譯效果是6分,人類專家也不能達到6分。而神經網路模型在某些語言對之間達到的翻譯效果與人類已經相差無幾。
第二部分,百川終歸海:LSTM與機器翻譯
下面簡單講講機器翻譯的發展歷史。首先我們說說雙語、多語的重要性,舉兩個例子,一個是巴比倫塔。大家可能知道,《聖經創世記》說人類要建造一個能通上天的通天塔,上帝為了阻止這個行為就創造了不同的語言,語言不通就沒法商量,沒法商量就建不起來,這裡我們可以看到雙語的重要性。
雙語的重要性還有一個很典型的例子,叫羅塞塔石碑。古埃及象形文字在一個時期已經沒有人能認識了,後來發現了這個石碑。羅塞塔石碑上有三種文字,包括古埃及文字和古希臘文,透過古希臘文把古埃及文字最終解讀了出來。從這兒也可看到雙語的重要性。
機器翻譯有幾個過程,提出機器翻譯任務是在1947年。大家知道資訊理論的創始人叫夏農,還有一個人叫Warren Weaver,Weaver,他在1949年和夏農合作發表了著名的The Mathematical Theory of Communication,奠定了資訊理論的基礎。Weaver在1947年時給控制論之父Norbert Wiener寫過一封信來探討機器翻譯的可能性。
1949年Weaver寫了備忘錄《翻譯》,正式提出了資訊翻譯的任務。他提出機器翻譯的基本策略與四個東西有關:
(1)意義與上下文。一個詞如果是多義詞,那麼它的具體含義需要靠上下文來決定,類似我們後來的馬爾可夫模型。
(2)語言與邏輯。語言和邏輯密不可分,要分析一個句子的邏輯離不開句法語義分析,這和句法分析、語義分析是相關的。
(3)從編碼、解碼角度研究語言統計語義性質。
(4)普遍的語言結構。有學者認為人類的原始語言可能是一樣的。
上面所說的(1)和(3)其實是統計模型,(2)和(4)是規則模型,Weaver個人比較推崇統計模型,但是後來的發展實際上是沿著規則模型的系統在往下走。因為語言學的理論根深蒂固,有詞法、語法等等規則,所以基本上到1956年的機器翻譯都是沿著這條路線在走。
當時機器翻譯是世界計算機領域的前沿,但從1957年到1966年就跌下來了。機器翻譯在1966年跌入了波谷,原因在於當時很多機器翻譯系統都出來了,這些系統基本上都是基於規則的,但當大家去嘗試這些系統時發現有問題。
1960年以色列知名哲學家、數學家和語言學家Yehoshua Bar-Hillel發表了一篇文章,表示機器翻譯太難了。舉個例子,“The box was in the pen.”和“The pen was in the box.”。“Pen”有兩個意思,“鋼筆”和“圍欄”,而且這裡面還有介詞,這兩個簡單的句子,在當時任何規則系統都解決不了。
1964年,美國科學院和美國國家研究理事會成立了一個“語言自動處理諮詢委員會”(AutomaticLanguage Processing Advisory Committee, 簡稱ALPAC委員會),對機器翻譯的進展狀況,尤其是對過去十餘年美國國防部、國家科學基金會和中央情報局重金資助的相關專案的執行效果進行評估。1966年11月,該委員會發布了一個題為《語言與機器:翻譯和語言學視角下的計算機》的報告,即著名的ALPAC報告。報告中有兩個結論:
(1)對全自動機器翻譯持基本否定的態度,認為在可預期的將來,不可能達到與人工翻譯相比更為快速、高質量、便宜的目標,轉而建議應該支援更為現實的機器輔助翻譯;
(2)機器翻譯遇到了難以克服的“語義屏障”問題,應該加強對計算語言學的支援。
報告一出來,機器翻譯就開始走下坡,美國所有對機器翻譯的專案資助全停了。但是歐洲和日本還在做,所以後來又有很多系統。從1967年到1989年,發展比較平穩。到1990年以後發生的事就比較激動人心了。
第一個衝擊波——統計機器翻譯模型
1990年,芬蘭赫爾辛基的第13屆國際計算語言學大會提出了處理大規模真實文字的戰略任務。所以當時整個機器翻譯就轉向了統計模型,這就是剛才講的基於規則模型的一個大翻轉,此時也產生了一個原來方法的終結者,就是IBM模型1-5。
關於IBM模型1-5效果,當時一個很有名的學者Och這麼評價:“只要給我充分的並行語言資料,那麼,對於任何兩種語言,我就可以在幾小時之內構造出一個機器翻譯系統”。這其實就是把大資料的思想灌輸到系統中,所以後來就有了Google,百度,包括微軟的翻譯等等,使得機器翻譯可以面向大眾,在網際網路上提供服務。
第二個衝擊波——神經機器翻譯模型
神經網路模型,也就是現在說的Deep Learning(深度學習)神經網路模型。它終結了IBM模型1-5,翻譯結果有明顯的提升,使得像Google、微軟、百度等的網際網路翻譯服務升級。LSTM我們把它叫做端到端的方法,Yann LeCun、YoshuaBengio和Geoffrey Hinton這三位就在《Nature》上表示,端到端的機器翻譯有可能終結整個傳統的機器翻譯系統,雖然當時端到端,也就是LSTM的效果還沒有完全超過傳統的模型。
機器翻譯的發展曲線,高潮、波谷,再起來,和人工智慧的發展曲線也比較像。一開始大家有空前高漲的情緒,然後一下子到了谷底,接著又一次激情上來,現在我們還在上升階段。
第三部分,豈復須人為:LSTM與古詩生成
下面我們再看看創作古詩,為什麼研究作古詩呢?這個很自然,我們想看看LSTM模型到底怎麼樣。於是就用古詩創作來檢測這個模型,同時希望能對模型提出改進。大的框架和機器翻譯是一樣的,差別就是機器翻譯實際上是考慮語義的相似性,古詩生成則是考慮語義的相關性,兩者雖有差異,但模型其實差不多。
當然針對這個任務,我們對LSTM模型有不少改進。最後得到的效果是,舉例來說,當你輸入上句,江上西風一棹歸,機器會產生下句,夕陽不見客舟低。另外上句,又聽西風墮葉聲,機器給出下句,萬事盡隨天籟起。對聯做的還不算太理想,但也還可以。
但是完全產生一首古詩,給定題目,比如叫《秋雁》,自動生成的七絕詩為:
白蘋江上驚秋雁
紅蓼洲邊起暮鴉
遙指翠微亭下路
行人不見武陵花
還可以自動生成藏頭詩。我們的古詩生成系統(起名叫“九歌”)現場創作,與人類詩人在效果上有一拼,各有特色,例如七絕首字藏“機智過人”。
平仄也符合,押韻也符合,詩意也還不錯。我估計現在在座的80%的同學作詩作不過這個系統。我們也做過測試,就是把計算機產生的詩和古詩放在一起讓人打分。我們的系統得分比古人還是略差,但是已經有一定的可比性了。
第四部分,思考
最後總結一下,神經網路雖然好,但是它還是有很多不足的地方,比如The pen was in the box。這個幾十年前就提出的不好處理的例句,現在的某些機器翻譯還是錯的。這就觸到了神經網路的痛處,缺乏理論分析,而這就需要把知識放進來。
總結一下我的感受:
(1)技術重大進步的境界。機器翻譯也好,古詩創作也好,最大的進步都是依賴於重大技術的面世,而絕不是現有技術的修修補補,殫精竭思的去搞一些小技巧。它們都是由於方法論上的革命而變得更加精準,這就是創新的重要性。
(2)弱人工智慧金秋。現在這個時期,有人說是人工智慧的夏天,特別hot,有人說冬天快到了,但我認為是秋天,是金秋,是收穫的季節,現在是弱人工智慧收穫的金秋。
我們現有的,包括LSTM模型、CNN模型都是過去一二十年整個學術界研究成果的最突出的體現,一二十年一遇,但其潛能還遠遠沒有發揮出來。如果現在在弱人工智慧的不同領域去深挖,一定能達到很好的效果。
再往下估計人工智慧的冬天就會到來,這個冬天不是在弱人工智慧的意義下,而是在強人工智慧的意義下的。那以後要想取得更大的進步,必須依賴強人工智慧的突破,而強人工智慧的突破必然是新一輪的方法論層面上的突破,非常困難。在這個突破出現之前,人工智慧會陷入冬天,積攢新的勃發力量。
今天我就講到這,謝謝大家!