作者 | 張俊林,中國中文資訊學會理事,目前在新浪微博 AI Lab 擔任資深演算法專家。在此之前,張俊林曾經在阿里巴巴任資深技術專家,以及在百度和用友擔任技術經理及技術總監等職務。同時他是技術書籍《這就是搜尋引擎:核心技術詳解》(該書榮獲全國第十二屆輸出版優秀圖書獎)、《大資料日知錄:架構與演算法》的作者。
在辭舊迎新的時刻,大家都在忙著回顧過去一年的成績(或者在灶臺前含淚數鍋),並對 2019 做著規劃,當然也有不少朋友執行力和工作效率比較高,直接把 2018 年初制定的計劃複製一下,就能在 3 秒鐘內完成 2019 年計劃的制定,在此表示祝賀。2018 年從經濟角度講,對於所有人可能都是比較難過的一年,而對於自然語言處理領域來說,2018 年無疑是個收穫頗豐的年頭,而諸多技術進展如果只能選擇一項來講的話,那麼當之無愧的應該就是 BERT 模型了。
在上一篇介紹 Bert 的文章「從 Word Embedding 到 Bert 模型—自然語言處理中的預訓練技術發展史」裡,我曾大言不慚地宣稱如下兩個個人判斷:一個是 Bert 這種兩階段的模式(預訓練+Finetuning)必將成為 NLP 領域研究和工業應用的流行方法;第二個是從 NLP 領域的特徵抽取器角度來說,Transformer 會逐步取代 RNN 成為最主流的的特徵抽取器。
關於特徵抽取器方面的判斷,上面文章限於篇幅,只是給了一個結論,並未給出具備誘惑力的說明,看過我文章的人都知道我不是一個隨便下結論的人(那位正在補充下一句:「你隨便起來不是……」的同學請住口,請不要洩露國家機密,你可以繼續睡覺,吵到其它同學也沒有關係,哈哈),但是為什麼當時我會下這個結論呢?本文可以看做是上文的一個外傳,會給出比較詳實的證據來支撐之前給出的結論。
如果對目前 NLP 裡的三大特徵抽取器的未來走向趨勢做個宏觀判斷的話,我的判斷是這樣的:RNN 人老珠黃,已經基本完成它的歷史使命,將來會逐步退出歷史舞臺;CNN 如果改造得當,將來還是有希望有自己在 NLP 領域的一席之地,如果改造成功程度超出期望,那麼還有一絲可能作為割據一方的軍閥,繼續生存壯大,當然我認為這個希望不大,可能跟宋小寶打籃球把姚明打哭的機率相當;而新歡 Transformer 明顯會很快成為 NLP 裡擔當大任的最主流的特徵抽取器。
至於將來是否會出現新的特徵抽取器,一槍將 Tranformer 挑落馬下,繼而取而代之成為新的特徵抽取山大王?這種擔憂其實是挺有必要的,畢竟李商隱在一千年前就告誡過我們說:「君恩如水向東流,得寵憂移失寵愁。莫向樽前奏花落,涼風只在殿西頭。」當然這首詩看樣子目前送給 RNN 是比較貼切的,至於未來 Transformer 是否會失寵?這個問題的答案基本可以是肯定的,無非這個時刻的來臨是 3 年之後,還是 1 年之後出現而已。
當然,我希望如果是在讀這篇文章的你,或者是我,在未來的某一天,從街頭拉來一位長相普通的淑女,送到韓國整容,一不小心偏離流水線整容工業的美女模板,整出一位天香國色的絕色,來把 Transformer 打入冷宮,那是最好不過。但是在目前的狀態下,即使是打著望遠鏡,貌似還沒有看到有這種資質的候選人出現在我們的視野之內。
我知道如果是一位嚴謹的研發人員,不應該在目前局勢還沒那麼明朗的時候做出如上看似有些武斷的明確結論,所以這種說法可能會引起爭議。但是這確實就是我目前的真實想法,至於根據什麼得出的上述判斷?這種判斷是否有依據?依據是否充分?相信你在看完這篇文章可以有個屬於自己的結論。
可能談到這裡,有些平常吃虧吃的少所以喜歡挑刺的同學會質疑說:你憑什麼說 NLP 的典型特徵抽取器就這三種呢?你置其它知名的特徵抽取器比如 Recursive NN 於何地? 嗯,是,很多介紹 NLP 重要進展的文章裡甚至把 Recursive NN 當做一項 NLP 裡的重大進展,除了它,還有其它的比如 Memory Network 也享受這種部局級尊貴待遇。但是我一直都不太看好這兩個技術,而且不看好很多年了,目前情形更堅定了這個看法。而且我免費奉勸你一句,沒必要在這兩個技術上浪費時間,至於為什麼,因為跟本文主題無關,以後有機會再詳細說。
上面是結論,下面,我們正式進入舉證階段。