Multi-lingual Models for Compostional Semantic representations

weixin_34290000發表於2018-08-11

第一遍過論文

1.1 論文型別

  這是一篇提出新模型,並且給出驗證和分析的論文

1.2 論文領域

  這篇論文研究的是Distributional Representation,貌似還是個文件級別的向量表示。並且使用雙語語料庫生成的。

1.3 假設正確性討論

  這篇文章的基本假設是使用連續空間的向量來表示離散的物體。並且認為句子級別的雙語語料庫能夠互相提供支撐,為了生成更高階別的文字向量做支撐。


12011882-0ab2ac955cbb52c8.png
基本假設

  更具體一點的核心假設是:如果我們有雙語的語料庫(A語言和B語言,句子級別的),那麼我們有轉換函式fg將A和B的句子轉換成向量,句子為s_a,s_b,那麼經過轉換之後這倆向量應該是完全一樣,不是完全一樣也最起碼是及其接近才對。很不錯的假設,這樣的話,我們就可以利用句子級別和文章級別的目標損失函式進行學習了。

1.4 主要貢獻

  1.模型對語料庫門檻要求相對較低。傳統的用來生成整篇文章的向量的方法,通常是基於依賴解析樹哇,什麼什麼的。這樣的要求說來簡單,但是對於一些沒有大量標註的語言來說,依賴解析都比較難搞,更別說下行任務生成整篇文章的向量啦。

  2.模型能夠有效的解決higher level embeddings的問題。不僅僅是在sentence level上能夠給出結果,在document level上也能直接應用。

第二遍過論文

還是那句話。第二遍過論文重點應該放在論文的模型上。

  本文的模型其實非常簡單。為了保險起見,我們先來回顧一下本文的基本假設。本文認為啊,每個句子的語義都應該有自己的一個embeddings。這個embedding呢明顯是和語言無關的。之前有很多人在這方面做過研究,其中就包括本文選的baseline.這裡呢我也就不劇透啦。簡單說明一下這個框架:有了前面的假設,我們推理一下就能得到,如果真的是語義有自己的embeddings的話那麼,每個不同的語言表示這句話,應該在向量空間上是同一個向量,最起碼也得是相近的向量。所以我們模型的過程就是,對平行語料庫的兩個對齊的句子,首先分別計算一下句子的embeddings,這個時候使用最簡單的求和啦,或者n-gram都行吧。然後這兩個embedding的差作為損失函式,利用averaged perceptron學習器進行引數的調整。注意,最開始的時候理解起來有點困難在於沒有意識到這裡的詞向量也是單獨訓練出來的

12011882-df06982d745db4bc.png
模型基本框架

第三遍過論文

3.1 資料準備

  本文使用了兩個語料庫。Europarl v7以及TED演講。前者好在有健全的baseline可以參考,後者好在有大量的平行語言可以做多語言學習的探究。此外該論文還採用了Reuters的語料庫作為測試集。

12011882-828f0c93aa357d12.png
語料庫

12011882-448ce4f9ed583319.png
測試語料庫

3.2 評價標準

  分類問題嘛,最直觀最有說服力的結果就是分類的準確率啦。在該論文中正是採用了準確率作為評價標準。在TED實驗上還採用了F1作為評價指標。

3.3 baseline

  在Europarl的實驗上,該論文直接拿了以前的結果包括I-Matrix,glossed word,MT這樣幾個模型。

12011882-c234e41ba2d2edf4.png
baseline

  在TED的實驗上,因為之前沒有人用過這個語料庫來搞分類的實驗,所以作者自己在這個資料上重現了一個MT模型作為基準線。

3.4 實驗結果

  分析一下實驗結果,在Europarl實驗中可以看出分類結果有很大的提高,證明了這種雙語學習的方式確實是能夠學習共同的語義embeddings的。並且增加新的語言將會給原來的效果帶來顯著的提升。

12011882-df4a4e77a0c3a7c9.png
Europarl實驗結果

  在TED的試驗中明顯是基準線MT在絕大多數的語言上都表現最好,但是呢作者認為之所以表現好是因為他作弊,用了更多的資訊才構建了MT模型的,而我們的模型只用到了最簡單的雙語語料庫,其他的資訊都沒有用到,所以表現差一點情有可原。

12011882-638e93e92a8ca192.png
TED實驗結果

  作者還拿模型和Sena生成的詞向量做了比較。在這裡發現人家Sena 雖然用的資料量比我們大很多,但是我們的結果一點都不差哇。


12011882-3a886d26275f94b8.png
和sena 比較

  最後,作者還進行了一步探索,就是發現訓練出來的詞向量,具有雙語聚類的效果。就像我們的普通詞向量能夠相近的詞自動的聚成一堆一樣,我們發現該論文生成的向量首先是把所有語言的單詞都放在了同一個語料庫中,然後發現意思相近的詞聚攏在了一起。真是有趣的發現,不知道能不能借鑑到翻譯中去。

12011882-218c7ac5d7b1b430.png
詞向量

總結

  這篇論文看的真是舒暢哇,難得一篇熟悉的領域的論文。在這裡學到的東西是怎麼學習language independent的詞義向量,這一點是很有意思的。

相關文章