深度對話楊植麟博士：NLP科研和創業的方法論

迴圈智慧發表於2020-12-25

原文網址 : https://www.jiqizhixin.com/articles/2020-12-24-5

智源導讀：楊植麟，迴圈智慧聯合創始人、智源青年科學家。如今僅28歲的他，曾於2011年至2015年在清華計算機系就讀，本科期間師從唐傑教授；隨後去往CMU讀博，師從蘋果AI研究負責人Ruslan Salakhutdinov 和谷歌首席科學家 William Cohen。在此期間先後以一作身份，發表了影響廣泛的成果 Transformer-XL 和 XLNet，對自然語言處理帶來了極大的影響。
在最近由“青源會”組織的青源Talk中，楊植麟博士分享了《從學習的角度看NLP的現狀與未來》的報告。在此之後，智源社群邀請主持人張家俊研究員與楊植麟博士，就其科研及創業經驗進行了深度對話。
下面智源社群從對話中選出部分觀點內容，分享給讀者。
文 / 賈偉

張家俊（左）：中國科學院自動化研究所模式識別國家重點實驗室研究員、博士生導師，智源青年科學家，研究方向為機器翻譯和自然語言處理等。

楊植麟（右）：迴圈智慧（Recurrent AI）聯合創始人，智源青年科學家，NLP 領域知名青年學者，其作為第一作者發明的 XLNet 在20項任務上超越 BERT；其發明的 Transformer-XL 成為首個全面超越 RNN 的注意力語言模型。

01 科研三經驗

張家俊：你從大二大三就開始跟著唐傑老師做科研，並且發了不少頂級論文；隨後又在國外師從 Ruslan 和 Cohen 讀博。在這段時間裡，你有哪些比較深刻的經驗？

楊植麟：我覺得有三點。第一，我們應該更傾向去做簡單的 Idea。因為越簡單的 Idea，反而越本質。

如果你去看歷史，就會發現所有有影響力的方法，或者最後真的能沉澱下來的技術，都是非常簡單的東西，只有簡單的東西才能持久。反而是那些複雜的，例如以前大家做 QA，去搭各種非常複雜的架構，可能都不太本質，因為它太複雜，它的動機可能也比較奇怪。

我們經常會看到有人寫論文時會寫 “Simple Yet Effective”，其實正確的說法應該是 “Simple And Effective”，因為這兩個目標能夠同時滿足，也是我們的最終目標。

所以我覺得簡單很重要，而且是個優點，沒有必要在論文裡面專門把它寫得很複雜。簡單就是簡單，簡單是個優點。

第二，我們做科研，應當去對你定義一個 High-level 的或者Long-term 的Research Agenda，然後拆解這個問題，做到研究的每一步都確定自己到底要去解決這個問題中的哪個部分。

這是我從 Jason Weston（注：Facebook研究科學家、紐約大學客座教授）身上學到的，他們整個組目前都是這樣。從好幾年前他就想去解決對話問題，然後他把對話問題拆解成很多子問題，然後每年去解決其中的一部分，最後拼起來就是一個比較好的系統。

我覺得這種研究方式就是長期思維，並不是這個 Idea 碰一下，那個 Idea 碰一下，最後靠運氣來獲得成果；而是形成一種體系化的研究路徑，然後有計劃地進行研究。當然中間可能會有很多新的靈感，但這些靈感也都是計劃中的一部分。

第三，要始終認識到，最好的東西都還沒做出來。之前我一直以為好的工作都已經被別人做出來了，已經沒有機會做出好的工作了。當時我剛開始做NLP，Word Embedding、Memory 網路、Attention 等都出來了，站在那個時間點去看，好像沒有什麼東西可以做了。但事實上真正的好戲才剛剛開始呢，例如2017年就出現了 Transformer，2018年之後出現了各種預訓練，今年有GPT-3等。所以其實最好的東西還沒有到來。

這個是 Quoc V. Le（注：Quoc Le 為 seq2seq，AutoML 等工作的作者）教給我的，他是我在 Google 的導師。在13、14年的時候，當時他發現，AlexNet 有了，LSTM 有了，Word Embedding 也有了，他就想是不是已經沒有好東西可以做了。但後來發現並非如此，後面有更多好的東西出來。

站在今天來看，大家依然會提出許多很尖銳的問題，而且透過預訓練的方法很難解決。這就說明還有很多問題值得做。所以千萬不要想著說，現在已經沒東西做了，因為最好的東西永遠都在接下來的時刻。

02 四年 CMU 博畢的秘訣：快速迭代

張家俊：我們瞭解到，你只花了四年就從 CMU 博士畢業了；而 CMU，特別是語言技術研究所，學生的畢業年限基本上都在六七年以上。你是怎麼做到的，以及當時是怎麼規劃你博士生涯的？

楊植麟：首先，我覺得基本面上還是運氣比較好，趕上了一個 NLP 發展非常迅速的時代，正好有很多 Open 的問題可以去解決。解決了這些問題，相應的就會有一些成果。所以我覺得時代背景非常重要。

其次，我覺得最為重要的一點是，要快速迭代。我們做科研，其實並不是每個想法都正確，我們的 Idea 總會出錯，而且大多數人的大多數 Idea 都是不 Work 的。我之前有個規律，就是把我的所有結果都寫到Google Spreadsheet 裡面，然後就發現每當寫四五百行或者1000行，就會有一個 Positive 的結果。所以這就意味著，產出結果的速度，取決於你迭代的速度，你要迭代的足夠快，才有可能快速地出結果。所以我覺得這是一個很重要的經驗。

至於具體的規劃。第一，可能因為當時我在本科階段奠定一些基礎，所以到CMU之後基本上就可以直接開始做研究了，這節省了一些時間。第二，在規劃上是這樣：讀博士的前一兩年，我去探索了幾個不同的方向；後面兩年則主要專注在一個方向上，然後把它做到極致。

03 XLNet提出的精髓：序列問題驅動

張家俊：你在博士期間，在語言模型上有兩個非常好的工作，一個是 Transformer-XL，一個是 XLNet 。我看你之前的一些訪談說，你是在 Transformer-XL 失敗之後，才想怎麼去深入的思考語言模型這件事情，然後提出了 XLNet。但我在讀 XLNet 這篇文章時，就有一個疑惑，整個模型你們是怎麼憑空把它想出來的，你能不能介紹一下？

楊植麟：我覺得是這樣，一般想到一個新的東西，可能會有幾種不同的方式。

一種是從問題出發，然後一步一步去想怎麼解決這個問題。這時，就會把這個問題拆分成子問題，然後再繼續去解決子問題。

另一種則是從方法出發，有了現有的方法，怎麼去做組合。技術的本質就是對方法做組合，把小的技術組合成大的技術，把老的技術組合成新的技術。

這兩種方案一個是自下而上，問題驅動；一個是自上而下，方法驅動。

我們在做XLNet這個事情的過程中，更多的是一個問題驅動的方式。做的方式就是先看到有一個問題，然後我去工具集驅找有哪些東西可以解決這個問題；但在解決這個問題的過程中，我發現它會帶來新的問題，然後我就再去找新的工具來解決這個新問題，大概是這樣。

我們一開始想解決的問題是自迴歸和自編碼。它們都有自己的優勢，我們想讓它們的優點統一起來。基於這個動機，我們想到之前看到過一些基於 Permutation 的思路，就想是不是可以把它拿來用。但拿來之後我們發現一個新的問題，就是雖然可以做 Permutation，但中間會有一些 Ambiguity 存在，然後我就去解決 Ambiguity。解決完之後發現還不夠，又有新的問題，我們就提出了雙流的 Attention 機制。所以它其實是一步一步的，透過這種序列的問題解決，最後形成了現在這樣一個結果。

所以如果不去考慮中間的動機，可能就會覺得非常奇怪；但如果去推理中間的每一步，就發現非常合理。這也是問題驅動和方法驅動的區別。方法驅動的結果看起來就會非常合理。

04 GPT-4 會做什麼？

張家俊：請你預測一下 GPT-4 會做什麼？

楊植麟：我覺得會有一些不同的方向。

一方面，我們當然可以把它變得更大；另一方面可以去做 Multi-model 的預訓練；再一方面，可以去改變它的架構，加入更多、更好、更可擴充套件的架構，或者用一個泛化能力更強的目標函式，把它顯式地加到預訓練中。

我覺得都是一些可行的方向。

05 NLP 獨角獸成長之路的兩大基本原則：年費 + 標準化

張家俊：你現在是迴圈智慧（rcrai.com）的聯合創始人。在真實的應用場景中也做了一些非常成功的落地工作。我跟工業界的人交流時就發現，有人說 NLP 創業很難出現獨角獸企業。你同意這個觀點嗎？如果你不同意，怎麼樣才能成為一個獨角獸？譬如說迴圈智慧怎麼樣成為獨角獸，或者如果你有一些其他的不同的看法？

楊植麟：首先我覺得這個命題本身確實值得商榷，因為要看怎麼去定義NLP獨角獸。如果去看純做NLP的廠商，會發現在美國有很多對標的公司，它實際上已經是獨角獸或者馬上成為獨角獸，比如 Asapp、People.ai、Chorus.ai、Gong.io等，它們都是以 NLP 為核心的一些初創企業，但估值已經非常高了。我覺得中國肯定也會誕生一些這樣的企業，我覺得完全是有機會的。

我們從國內來看，其實已經有很多公司做得非常好了。如果我們把定義稍微放寬鬆一點，不只看純做 NLP 的公司，可以看 NLP 加語音或者 NLP 加結構化資料，其實已經有非常多的公司做得非常好了，包括上市的也有很多。

所以市場的情況我覺得其實還是挺好，所以我覺得肯定可以產生獨角獸。如果我們放寬一點定義，實際上已經產生了很多獨角獸。

但為什麼大家會形成這樣的一個印象呢？我覺得其實這裡面主要會有幾塊，做 NLP 既有一些與 to B 共通的地方，又有一些自己獨特的難點。

首先，與 to B 共通的地方就在於說，在當前中國的商業環境下，你能不能用堅持用年費加標準化交付的方式去做。美國 SaaS （注：Software-as-a-Service，軟體即服務）商業模式成功的一個前提是必須年費，必須標準化，不然 PS 或者 PE 就非常低。所以我覺得只有去堅持這兩個東西。

現在我覺得中國其實 to B 可能面臨的整體問題就是，怎麼在一個特定行業裡面去找到這樣的機會，能夠去做年費加標準化的產品。當然現在其實市面，很多人已經找到了這個方式，所以我覺得剩下的只是一個時間的問題。

其次，NLP 自己獨有的一些難題，最核心的便是場景的碎片化。如果我做語音識別引擎，我只需要即插即用，基本沒有新的邊際成本；但如果是 NLP 的話，由於它跟業務繫結非常近，需要考慮業務的具體定義，然後才能真正落地產生價值，這裡面的交付邊際成本在早期會比較高。不過以後，我相信以預訓練為核心。透過更大規模的預訓練，可以降低它的交付成本，來緩解這個困難。

但另一方面，NLP 這種場景的碎片化，也正是它商業模型的一個優點。譬如如果直接做 ASR（注：自動語音識別）把語音轉成文字，這是不產生業務價值的；必須在上面做一層 NLP 才行，因為 NLP 才是跟業務價值繫結的。在很多場景下，AI 產生最終價值的最後一英里，必須用到 NLP 的技術才能真正落地。所以，我覺得這也是 NLP 商業落地非常核心的東西。

所以我覺得既要看到好的一面，也要看到不足的一面。NLP 離使用者近，能夠產生最終的價值；而邊際成本高，這是它的缺點，但這可以用預訓練等方法來提升它的標準化程度。

綜上來說，年費加標準化產品，我覺得堅持這兩個原則，中國必然會產生 NLP 的獨角獸企業。

（原文：智源社群 | 楊植麟：28 歲青年科學家，開掛人生的方法論）

專訪XLNet作者楊植麟：“人機耦合”將是對話語義應用的新趨勢
2020-04-13
XLNet 第一作者楊植麟：為什麼預處理模型XLNet比BERT、RoBERTa更加優越
2020-03-27
模型
原蘋果首任AI負責人、楊植麟導師Russ領隊Meta Agent研究，WebArena作者加盟
2024-09-04
蘋果AIWeb
撞車DeepSeek NSA，Kimi楊植麟署名的新注意力架構MoBA釋出，程式碼也公開
2025-02-19
架構
精益創業方法論 - OpenGrowth
2020-10-03
創業
寫在博士旅程之前——前大疆創新技術總監楊碩
2018-08-27
CVPR 2019審稿滿分論文：中國博士提出融合CV與NLP的視覺語言導航新方法
2019-03-04
視覺
對話論文總結
2018-07-08
對話即資料流：智慧對話的新方法
2020-10-23
深度思考學習的方法與對職業的意義
2020-02-18
GPT-3，深度學習和NLP的巨大進步
2020-09-30
GPT深度學習
奧特曼回應 OpenAI 股權問題和「封口協議」；月暗楊植麟：大模型和網際網路開發模式完全不同丨 RTE 開發者日報 Vol.207
2024-05-20
奧特曼OpenAI協議大模型模式開發者日報
精益創業方法論的四個主要問題 — Reforge
2022-10-02
創業
對話楊炯緯，中國SaaS仍然存在增量機會
2023-09-25
NLP知識總結和論文整理
2022-03-26
對話MVP | 清華博士馬福辰：希望成為社群和生態發展強有力的“助攻”
2022-05-17
MVP
股權和創業投資基金概論
2018-09-18
創業
麻省理工科技評論：中美科研水平對比
2018-12-22
海淀園企業博士後科研工作站創新發展20年工作會，綠盟科技捧回四個獎
2019-11-20
和 Nature 封面論文一作，聊了聊天機芯的科研故事
2019-10-22
NLP與深度學習（一）NLP任務流程
2021-08-24
深度學習
深度長文：NLP的巨人肩膀（上）
2018-12-10
00後CEO楊豐瑜：耶魯博士回國創業，五個月造出首款「可量產」人形機器人｜AI Pioneer
2024-08-04
創業機器人AI
CS專業科研論文繪圖，及演示動畫可用的工具
2024-08-31
繪圖動畫
和楊xu的聊天
2024-03-14
ChatGPT用於科學，如何與你的資料對話？LLM幫你做科研
2024-07-25
ChatGPT
RPA結合AI（NLP）便有了“對話式RPA機器人”
2020-04-29
AI機器人
對話阿里雲佘俊泉：邊緣雲的持續突破和創新
2024-04-19
阿里
德邦證券：2021年植髮行業深度報告（附下載）
2021-06-28
行業
2.5億脫髮人群和背後的百億植髮行業
2020-08-16
行業
GBASE南大通用為行業信創發展提速亮相全國信創與人工智慧發展博士後論壇
2021-12-15
行業人工智慧
SigmaPlot 15：科研繪圖的創新利器
2023-10-26
繪圖
出身清華姚班，史丹佛博士畢業，她的畢業論文成了「爆款」
2019-02-28
創業者楊採購在網際網路行業走的那些坑！ILF
2022-03-19
創業行業
創業者需要知道的50句話
2018-07-09
創業
黑神話首支紀錄片獨家首播：路在腳下｜對話楊奇：《黑神話：悟空》的美術開發之路
2024-09-20
歷史對話整理：古代戰爭討論
2024-07-24
Ta們用數字種植綠色山河：牛津博士與儲能之變
2021-11-16

深度對話楊植麟博士：NLP科研和創業的方法論

01 科研三經驗

02 四年 CMU 博畢的秘訣：快速迭代

03 XLNet提出的精髓：序列問題驅動

04 GPT-4 會做什麼？

05 NLP 獨角獸成長之路的兩大基本原則：年費 + 標準化

相關文章