AI,被“橫掃記錄”反噬?

AI科技大本營發表於2019-01-31

編輯 | Jane

出品 | AI科技大本營

 

昨天,香儂科技發表論文《Glyce: Glyph-vectors for Chinese Character Representations》,提出基於中文字形的 NLP 模型——Glyce。香儂科技官方公開的論文解讀中寫道:

 

Glyce提出了基於中文字形的語義表示:把漢字當成一個圖片,然後用卷積神經網路學習出語義,這樣便可以充分利用漢字中的圖形資訊,增強了深度學習向量的語意表達能力。Glyce在總共13項、近乎所有中文自然語言處理任務上重新整理了歷史記錄。

 

論文一經發表,便引起了大家的廣泛關注和討論,營長經多方蒐集、參考很多網友的回答,整理了幾個頗具爭議性的問題:

 

  • “橫掃記錄”的 Glyce 與 BERT 相比較是否有意義?

 

一些其他論文介紹中附有“橫掃 13 項中文 NLP 記錄”的標題,吸引了讀者的眼球,不由得將其與 BERT 進行對比。然而很多人細讀後表示,Glyce 的一些設計優勢,在實驗效果上確有提升,記錄也有重新整理,但“橫掃”言過其實了。根據論文給出的實驗結果,有些任務並沒有 BERT 達到的影響力。在命名實體識別任務中(採用 F1 作為最終評價指標,對比之前的最優模型 Lattice-LSTM),在 OneNotes、MSRA 和 Resume 三個資料集上分別超過 0.93、0.71 和 1.21 個百分點。

 

拋開實驗效果,二者的本質也是不同的。論文發表後,香儂科技創始人李紀為對此問題進行了統一回復:

 

@李紀為@香儂科技:Glyce 與 BERT 本質上不太一樣,是互補的。Glyce 可以認為是特徵提取演算法,BERT 是 pre-training,BERT 基於外部極大規模語料訓練,而 Glyce 並沒有用到外部語料。針對此論文中的工作,將 Glyce 與 BERT 進行對比是不公平的。

 

最好的結果一定會是 Glyce+BERT_pertrain,大家可以期待 Glyce 2.0。

 

隨後,論文作者之一@吳煒也在知乎上對此問題進行了回答:

 

640?wx_fmt=png

     

可見,沒有必要將 Glyce 與 BERT 進行對比,更應先關注 Glyce 的工作本身,探討其帶來的意義、價值與反思。

 

論文中也提到了一些研究,關注在中文 NLP 中結合字形影像特徵的方法,但並沒有表現出持續的效能提升,甚至在一些研究中取得了負面效果,(Liu et al., 2017; Zhang and LeCun, 2017)、Dai and Cai, 2017)。但是,這種 idea 還是很有意思的,很多網友也表示”這篇論文真正將字形特徵的思路通過實驗得到 Work 的狀態,還是很有價值的”。

 

  • 但是談到實驗部分,很多人都對實驗 Baseline 持質疑態度

 

@Nan Yang:這個是 1024 維的向量表示,而對於 Baseline,分詞和 NER 50 維向量、詞性標註是 64 維、Sentiment 是 256 維、Deppar 是 300 維、MT 是 512 維,還有幾個懶得查了,一般來說在這些 Task 上維度增大好好調下都會更高,能好好做下 baseline 嗎?

 

針對以上問題,張俊林老師也分享了他對這項工作的一些想法和意見,AI科技大本營經張俊林老師授權轉載,歡迎大家一起交流學習!

 

以下是張俊林老師全文(略有修正):

 

今天(1 月 30 日)被 Glyce 刷屏了,剛開始我是下午在微信朋友圈看到的這個新聞“香儂科技提出中文字型的深度學習模型Glyce,橫掃13項中文NLP記錄”,看到標題心裡還有點小激動,覺得 NLP 今年大進展真的是多啊!但是白天有事沒來及細看,匆匆掃了一遍,晚上回家找來論文仔細讀了一下,感想比較多,下面簡單談談我的個人看法。

 

首先,使用字型作為特徵引入 NLP 中這種思路還是挺有意思的,但直觀感覺,這種資訊可能只會對語義匹配類或者漢字發音計算類的任務有幫助,對分詞、詞性標註、句法與分類這種任務應該沒太大作用。

 

其次,現在很多技術媒體出於吸引眼球等目的,有標題黨傾向。動不動就“超過人類”、“橫掃...記錄”......雖然可以理解,但這對外行或者領域經驗不足的年輕人來說,引導尤其不好。“橫掃”這種詞不能輕易拿來用,BERT 在很多工上取得的效果是大幅度領先的,說“橫掃”沒人不服氣,而 Glyce 每個任務的提升幅度有限,說“橫掃”只會招黑。

 

第三,論文的立論多少缺乏說服力。論文的立論是:象形字中包含語義資訊,所以從漢字圖片中抽取象形字特徵作為補充。但是,象形字本身佔漢字的比例並沒有想象中那麼高。“現行漢字最多的是形聲字,象形字只是很少的一部分,但它是構成其他漢字的基礎。《說文解字》形聲字佔所收 9353 個漢字的 80% 以上,清代《康熙字典》形聲字佔 90%,形聲字大量增加是漢字發展的主流”。比如,“蜘蛛”的 “蛛”和“珠寶”的“珠”,這兩個字是形聲字,形只佔了一半,聲佔了另外一半,CNN 提出的特徵能夠區分那一部分是代表聲,哪一部分是代表形嗎?但從特徵角度講,兩個字提出的特徵應該是很相似的吧?難道從預測任務來說,比如語言模型,看到“蜘蛛”的 “蛛”,我們會覺得後面將出現“珠寶”的“珠”嗎?這個概率應該很小。

 

對於文字分類任務,兩篇不同領域的文章都包含很多形聲字,所以在兩篇領域相差很遠的文章中會存在大量重疊的偏旁部首,比如一篇體育一篇娛樂,偏旁部首會對分類有幫助嗎?這在直覺上很難接受。其它高層任務,如分詞、詞性和情感傾向等都面臨這個問題。單從直觀感覺來講:寫起來比較像的文字,它們可能只在單詞級別的語義匹配或發音類的任務上有用,對其它任務看不出有什麼必然的聯絡。所以總體感覺,論文立論不太符合直覺。

 

另外一種解釋,這種方式對於 OOV 有幫助,但從大比例漢字其實是形聲字的角度看,也沒有特別必然的聯絡。而且,如果採取漢字單字字元輸入的方式,哪怕是單字 Onehot 或者 Embedding,它本身對於 OOV 也是直接有幫助的,OOV 這個問題可能並不突出。如果對比物件是字元 ID方式的話,採取圖形漢字作為輸入,對於 OOV 能有多大作用,目前看不到特別明顯的理由。可能需要專門設計實驗來驗證這一點。

 

第四,個人覺得這裡面的實驗設計需要改進。拿 BERT 來比較確實不是必要的,因為兩者的目的不太一樣;此外,Transformer 類特徵抽取器做 NLP 任務的模型應該引入對比一下,畢竟這基本已經是很多 NLP 任務中公認最強的模型了。

 

最關鍵的一點是:如何證明在這麼多工中效能的提升真的是漢字圖片資訊帶來的,而不是 Glyce-char 之上輔助優化目標產生的效果?如果是後者產生的效果,那麼把這個損失函式放在常規模型的字元 Embedding 上,也可能產生類似不同任務的提升效果。個人感覺很大可能是一定比例的效能提升來自於這個輔助損失函式,它有助於優化單字 Embedding 的表達能力,而與字元是圖形形式還是 ID 形式關係並無如此之大。建議做個對比實驗:把模型中的 Glyce 去掉,然後給常規模型 Char 的 Embedding 也加上輔助損失函式,然後再和具有 Glyce 的比較。如果證明不是這個因素髮揮作用,那麼還能增加實驗的說服力。

 

第五,當然還有其他一些值得討論的地方。比如論文開始提到的“其他利用字型的工作之所以效果不好,是因為簡體字經過簡化,缺乏歷史上的語義資訊,所以一個創新點是引入其他字型”,實驗並沒有充分說明這一點。除了字元級語言模型外,其它實驗並沒有對這兩者效果作對比,無法確定這個立論是否成立,除非大量任務上都證明多種字型效果好於單字型,這個立論才成立。而從目前版本的論文中看不出這點。再比如文中使用的“Tianzige(田字格)——CNN 架構,這個就是偏文藝化的說法了,為什麼 pooling 後不能是 5 或者 6,而只能是 4 形成田字格呢?如果是 6 的話,跟田字格又有什麼關係呢?這個架構的提出應該更嚴謹一些。

 

作為技術人員,我們都希望能有新技術、大突破,但是技術本身說服力夠強才是基礎。也希望技術媒體能夠客觀進行報導,AI 泡沫本來已經快破了,希望不要推波助瀾進一步加快這個破滅過程,這樣對所有人其實都不好。

 

作者 | 張俊林,中國中文資訊學會理事,目前在新浪微博 AI Lab 擔任資深演算法專家。在此之前,張俊林曾經在阿里巴巴任資深技術專家,以及在百度和用友擔任技術經理及技術總監等職務。同時他是技術書籍《這就是搜尋引擎:核心技術詳解》(該書榮獲全國第十二屆輸出版優秀圖書獎)、《大資料日知錄:架構與演算法》的作者。

 

更多好文:

放棄幻想,全面擁抱Transformer:NLP三大特徵抽取器(CNN/RNN/TF)比較

 

 

寫在最後

 

無論是做研究還是做應用都需要嚴謹的態度。作為專注傳播、分享技術成果的我們,雖然有時候也有做的不夠好的地方,但我們會常常反思,也歡迎大家多多指正,反饋意見。

 

(本文為 AI科技大本營整理文章,轉載請微信聯絡 1092722531。 

 

     推薦    

 

640?wx_fmt=png

 

推薦閱讀

相關文章