智源導讀:楊植麟,迴圈智慧聯合創始人、智源青年科學家。如今僅28歲的他,曾於2011年至2015年在清華計算機系就讀,本科期間師從唐傑教授;隨後去往CMU讀博,師從蘋果AI研究負責人Ruslan Salakhutdinov 和谷歌首席科學家 William Cohen。在此期間先後以一作身份,發表了影響廣泛的成果 Transformer-XL 和 XLNet,對自然語言處理帶來了極大的影響。
在最近由“青源會”組織的青源Talk中,楊植麟博士分享了《從學習的角度看NLP的現狀與未來》的報告。在此之後,智源社群邀請主持人張家俊研究員與楊植麟博士,就其科研及創業經驗進行了深度對話。
下面智源社群從對話中選出部分觀點內容,分享給讀者。
文 / 賈偉
張家俊(左):中國科學院自動化研究所模式識別國家重點實驗室研究員、博士生導師,智源青年科學家,研究方向為機器翻譯和自然語言處理等。
楊植麟(右):迴圈智慧(Recurrent AI)聯合創始人,智源青年科學家,NLP 領域知名青年學者,其作為第一作者發明的 XLNet 在20項任務上超越 BERT;其發明的 Transformer-XL 成為首個全面超越 RNN 的注意力語言模型。
張家俊:你從大二大三就開始跟著唐傑老師做科研,並且發了不少頂級論文;隨後又在國外師從 Ruslan 和 Cohen 讀博。在這段時間裡,你有哪些比較深刻的經驗?楊植麟:我覺得有三點。第一,我們應該更傾向去做簡單的 Idea。因為越簡單的 Idea,反而越本質。如果你去看歷史,就會發現所有有影響力的方法,或者最後真的能沉澱下來的技術,都是非常簡單的東西,只有簡單的東西才能持久。反而是那些複雜的,例如以前大家做 QA,去搭各種非常複雜的架構,可能都不太本質,因為它太複雜,它的動機可能也比較奇怪。我們經常會看到有人寫論文時會寫 “Simple Yet Effective”,其實正確的說法應該是 “Simple And Effective”,因為這兩個目標能夠同時滿足,也是我們的最終目標。所以我覺得簡單很重要,而且是個優點,沒有必要在論文裡面專門把它寫得很複雜。簡單就是簡單,簡單是個優點。第二,我們做科研,應當去對你定義一個 High-level 的或者Long-term 的Research Agenda,然後拆解這個問題,做到研究的每一步都確定自己到底要去解決這個問題中的哪個部分。這是我從 Jason Weston(注:Facebook研究科學家、紐約大學客座教授) 身上學到的,他們整個組目前都是這樣。從好幾年前他就想去解決對話問題,然後他把對話問題拆解成很多子問題,然後每年去解決其中的一部分,最後拼起來就是一個比較好的系統。我覺得這種研究方式就是長期思維,並不是這個 Idea 碰一下,那個 Idea 碰一下,最後靠運氣來獲得成果;而是形成一種體系化的研究路徑,然後有計劃地進行研究。當然中間可能會有很多新的靈感,但這些靈感也都是計劃中的一部分。第三,要始終認識到,最好的東西都還沒做出來。之前我一直以為好的工作都已經被別人做出來了,已經沒有機會做出好的工作了。當時我剛開始做NLP,Word Embedding、Memory 網路、Attention 等都出來了,站在那個時間點去看,好像沒有什麼東西可以做了。但事實上真正的好戲才剛剛開始呢,例如2017年就出現了 Transformer,2018年之後出現了各種預訓練,今年有GPT-3等。所以其實最好的東西還沒有到來。這個是 Quoc V. Le(注:Quoc Le 為 seq2seq,AutoML 等工作的作者) 教給我的,他是我在 Google 的導師。在13、14年的時候,當時他發現,AlexNet 有了,LSTM 有了,Word Embedding 也有了,他就想是不是已經沒有好東西可以做了。但後來發現並非如此,後面有更多好的東西出來。站在今天來看,大家依然會提出許多很尖銳的問題,而且透過預訓練的方法很難解決。這就說明還有很多問題值得做。所以千萬不要想著說,現在已經沒東西做了,因為最好的東西永遠都在接下來的時刻。
張家俊:我們瞭解到,你只花了四年就從 CMU 博士畢業了;而 CMU,特別是語言技術研究所,學生的畢業年限基本上都在六七年以上。你是怎麼做到的,以及當時是怎麼規劃你博士生涯的?楊植麟:首先,我覺得基本面上還是運氣比較好,趕上了一個 NLP 發展非常迅速的時代,正好有很多 Open 的問題可以去解決。解決了這些問題,相應的就會有一些成果。所以我覺得時代背景非常重要。其次,我覺得最為重要的一點是,要快速迭代。我們做科研,其實並不是每個想法都正確,我們的 Idea 總會出錯,而且大多數人的大多數 Idea 都是不 Work 的。我之前有個規律,就是把我的所有結果都寫到Google Spreadsheet 裡面,然後就發現每當寫四五百行或者1000行,就會有一個 Positive 的結果。所以這就意味著,產出結果的速度,取決於你迭代的速度,你要迭代的足夠快,才有可能快速地出結果。所以我覺得這是一個很重要的經驗。至於具體的規劃。第一,可能因為當時我在本科階段奠定一些基礎,所以到CMU之後基本上就可以直接開始做研究了,這節省了一些時間。第二,在規劃上是這樣:讀博士的前一兩年,我去探索了幾個不同的方向;後面兩年則主要專注在一個方向上,然後把它做到極致。張家俊:你在博士期間,在語言模型上有兩個非常好的工作,一個是 Transformer-XL,一個是 XLNet 。我看你之前的一些訪談說,你是在 Transformer-XL 失敗之後,才想怎麼去深入的思考語言模型這件事情,然後提出了 XLNet。但我在讀 XLNet 這篇文章時,就有一個疑惑,整個模型你們是怎麼憑空把它想出來的,你能不能介紹一下?楊植麟:我覺得是這樣,一般想到一個新的東西,可能會有幾種不同的方式。一種是從問題出發,然後一步一步去想怎麼解決這個問題。這時,就會把這個問題拆分成子問題,然後再繼續去解決子問題。另一種則是從方法出發,有了現有的方法,怎麼去做組合。技術的本質就是對方法做組合,把小的技術組合成大的技術,把老的技術組合成新的技術。這兩種方案一個是自下而上,問題驅動;一個是自上而下,方法驅動。我們在做XLNet這個事情的過程中,更多的是一個問題驅動的方式。做的方式就是先看到有一個問題,然後我去工具集驅找有哪些東西可以解決這個問題;但在解決這個問題的過程中,我發現它會帶來新的問題,然後我就再去找新的工具來解決這個新問題,大概是這樣。我們一開始想解決的問題是自迴歸和自編碼。它們都有自己的優勢,我們想讓它們的優點統一起來。基於這個動機,我們想到之前看到過一些基於 Permutation 的思路,就想是不是可以把它拿來用。但拿來之後我們發現一個新的問題,就是雖然可以做 Permutation,但中間會有一些 Ambiguity 存在,然後我就去解決 Ambiguity。解決完之後發現還不夠,又有新的問題,我們就提出了雙流的 Attention 機制。所以它其實是一步一步的,透過這種序列的問題解決,最後形成了現在這樣一個結果。所以如果不去考慮中間的動機,可能就會覺得非常奇怪;但如果去推理中間的每一步,就發現非常合理。這也是問題驅動和方法驅動的區別。方法驅動的結果看起來就會非常合理。一方面,我們當然可以把它變得更大;另一方面可以去做 Multi-model 的預訓練;再一方面,可以去改變它的架構,加入更多、更好、更可擴充套件的架構,或者用一個泛化能力更強的目標函式,把它顯式地加到預訓練中。05 NLP 獨角獸成長之路的兩大基本原則:年費 + 標準化
張家俊:你現在是迴圈智慧(rcrai.com)的聯合創始人。在真實的應用場景中也做了一些非常成功的落地工作。我跟工業界的人交流時就發現,有人說 NLP 創業很難出現獨角獸企業。你同意這個觀點嗎?如果你不同意,怎麼樣才能成為一個獨角獸?譬如說迴圈智慧怎麼樣成為獨角獸,或者如果你有一些其他的不同的看法?楊植麟:首先我覺得這個命題本身確實值得商榷,因為要看怎麼去定義NLP獨角獸。如果去看純做NLP的廠商,會發現在美國有很多對標的公司,它實際上已經是獨角獸或者馬上成為獨角獸,比如 Asapp、People.ai、Chorus.ai、Gong.io等,它們都是以 NLP 為核心的一些初創企業,但估值已經非常高了。我覺得中國肯定也會誕生一些這樣的企業,我覺得完全是有機會的。我們從國內來看,其實已經有很多公司做得非常好了。如果我們把定義稍微放寬鬆一點,不只看純做 NLP 的公司,可以看 NLP 加語音或者 NLP 加結構化資料,其實已經有非常多的公司做得非常好了,包括上市的也有很多。所以市場的情況我覺得其實還是挺好,所以我覺得肯定可以產生獨角獸。如果我們放寬一點定義,實際上已經產生了很多獨角獸。但為什麼大家會形成這樣的一個印象呢?我覺得其實這裡面主要會有幾塊,做 NLP 既有一些與 to B 共通的地方,又有一些自己獨特的難點。首先,與 to B 共通的地方就在於說,在當前中國的商業環境下,你能不能用堅持用年費加標準化交付的方式去做。美國 SaaS (注:Software-as-a-Service,軟體即服務)商業模式成功的一個前提是必須年費,必須標準化,不然 PS 或者 PE 就非常低。所以我覺得只有去堅持這兩個東西。現在我覺得中國其實 to B 可能面臨的整體問題就是,怎麼在一個特定行業裡面去找到這樣的機會,能夠去做年費加標準化的產品。當然現在其實市面,很多人已經找到了這個方式,所以我覺得剩下的只是一個時間的問題。其次,NLP 自己獨有的一些難題,最核心的便是場景的碎片化。如果我做語音識別引擎,我只需要即插即用,基本沒有新的邊際成本;但如果是 NLP 的話,由於它跟業務繫結非常近,需要考慮業務的具體定義,然後才能真正落地產生價值,這裡面的交付邊際成本在早期會比較高。不過以後,我相信以預訓練為核心。透過更大規模的預訓練,可以降低它的交付成本,來緩解這個困難。但另一方面,NLP 這種場景的碎片化,也正是它商業模型的一個優點。譬如如果直接做 ASR(注:自動語音識別)把語音轉成文字,這是不產生業務價值的;必須在上面做一層 NLP 才行,因為 NLP 才是跟業務價值繫結的。在很多場景下,AI 產生最終價值的最後一英里,必須用到 NLP 的技術才能真正落地。所以,我覺得這也是 NLP 商業落地非常核心的東西。所以我覺得既要看到好的一面,也要看到不足的一面。NLP 離使用者近,能夠產生最終的價值;而邊際成本高,這是它的缺點,但這可以用預訓練等方法來提升它的標準化程度。綜上來說,年費加標準化產品,我覺得堅持這兩個原則,中國必然會產生 NLP 的獨角獸企業。(原文:智源社群 | 楊植麟:28 歲青年科學家,開掛人生的方法論)