Multi-lingual Models for Compostional Semantic representations
第一遍過論文
1.1 論文型別
這是一篇提出新模型,並且給出驗證和分析的論文
1.2 論文領域
這篇論文研究的是Distributional Representation,貌似還是個文件級別的向量表示。並且使用雙語語料庫生成的。
1.3 假設正確性討論
這篇文章的基本假設是使用連續空間的向量來表示離散的物體。並且認為句子級別的雙語語料庫能夠互相提供支撐,為了生成更高階別的文字向量做支撐。
更具體一點的核心假設是:如果我們有雙語的語料庫(A語言和B語言,句子級別的),那麼我們有轉換函式f和g將A和B的句子轉換成向量,句子為s_a,s_b,那麼經過轉換之後這倆向量應該是完全一樣,不是完全一樣也最起碼是及其接近才對。很不錯的假設,這樣的話,我們就可以利用句子級別和文章級別的目標損失函式進行學習了。
1.4 主要貢獻
1.模型對語料庫門檻要求相對較低。傳統的用來生成整篇文章的向量的方法,通常是基於依賴解析樹哇,什麼什麼的。這樣的要求說來簡單,但是對於一些沒有大量標註的語言來說,依賴解析都比較難搞,更別說下行任務生成整篇文章的向量啦。
2.模型能夠有效的解決higher level embeddings
的問題。不僅僅是在sentence level
上能夠給出結果,在document level
上也能直接應用。
第二遍過論文
還是那句話。第二遍過論文重點應該放在論文的模型上。
本文的模型其實非常簡單。為了保險起見,我們先來回顧一下本文的基本假設。本文認為啊,每個句子的語義都應該有自己的一個embeddings。這個embedding呢明顯是和語言無關的。之前有很多人在這方面做過研究,其中就包括本文選的baseline.這裡呢我也就不劇透啦。簡單說明一下這個框架:有了前面的假設,我們推理一下就能得到,如果真的是語義有自己的embeddings的話那麼,每個不同的語言表示這句話,應該在向量空間上是同一個向量,最起碼也得是相近的向量。所以我們模型的過程就是,對平行語料庫的兩個對齊的句子,首先分別計算一下句子的embeddings,這個時候使用最簡單的求和啦,或者n-gram都行吧。然後這兩個embedding的差作為損失函式,利用averaged perceptron
學習器進行引數的調整。注意,最開始的時候理解起來有點困難在於沒有意識到這裡的詞向量也是單獨訓練出來的
第三遍過論文
3.1 資料準備
本文使用了兩個語料庫。Europarl v7
以及TED
演講。前者好在有健全的baseline可以參考,後者好在有大量的平行語言可以做多語言學習的探究。此外該論文還採用了Reuters的語料庫作為測試集。
3.2 評價標準
分類問題嘛,最直觀最有說服力的結果就是分類的準確率啦。在該論文中正是採用了準確率作為評價標準。在TED
實驗上還採用了F1
作為評價指標。
3.3 baseline
在Europarl
的實驗上,該論文直接拿了以前的結果包括I-Matrix
,glossed word
,MT
這樣幾個模型。
在TED
的實驗上,因為之前沒有人用過這個語料庫來搞分類的實驗,所以作者自己在這個資料上重現了一個MT
模型作為基準線。
3.4 實驗結果
分析一下實驗結果,在Europarl
實驗中可以看出分類結果有很大的提高,證明了這種雙語學習的方式確實是能夠學習共同的語義embeddings
的。並且增加新的語言將會給原來的效果帶來顯著的提升。
在TED
的試驗中明顯是基準線MT
在絕大多數的語言上都表現最好,但是呢作者認為之所以表現好是因為他作弊,用了更多的資訊才構建了MT
模型的,而我們的模型只用到了最簡單的雙語語料庫,其他的資訊都沒有用到,所以表現差一點情有可原。
作者還拿模型和Sena生成的詞向量做了比較。在這裡發現人家Sena 雖然用的資料量比我們大很多,但是我們的結果一點都不差哇。
最後,作者還進行了一步探索,就是發現訓練出來的詞向量,具有雙語聚類的效果。就像我們的普通詞向量能夠相近的詞自動的聚成一堆一樣,我們發現該論文生成的向量首先是把所有語言的單詞都放在了同一個語料庫中,然後發現意思相近的詞聚攏在了一起。真是有趣的發現,不知道能不能借鑑到翻譯中去。
總結
這篇論文看的真是舒暢哇,難得一篇熟悉的領域的論文。在這裡學到的東西是怎麼學習language independent
的詞義向量,這一點是很有意思的。
相關文章
- 不在models.py中的models
- Probabilistic Models
- Large language models as surrogate models in evolutionary algorithms: A preliminary studyGo
- 理解Semantic Version
- LangChain vs Semantic KernelLangChain
- 論文解讀(DeepWalk)《DeepWalk: Online Learning of Social Representations》
- CS 839: FOUNDATION MODELS
- Beego Models之二Go
- Structuring Your TensorFlow ModelsStruct
- semantic UI學習(二)UI
- Enhancing Diffusion Models with Reinforcement Learning
- 12、flask-模型-modelsFlask模型
- Laravel view models [翻譯]LaravelView
- 論文解讀(GMT)《Accurate Learning of Graph Representations with Graph Multiset Pooling》
- 論文解讀(GraRep)《GraRep: Learning Graph Representations with Global Structural Information》StructORM
- semantic-ui@2.4.2 install: `gulp install`UI
- 論文解讀(LG2AR)《Learning Graph Augmentations to Learn Graph Representations》
- [Paper Reading] DDIM: DENOISING DIFFUSION IMPLICIT MODELS
- As a reader --> TabDDPM: Modelling Tabular Data with Diffusion Models
- As a reader --> Diffusion Models for Imperceptible and Transferable Adversarial Attack
- oracle data Format Models---二(轉)OracleORM
- 入門Semantic Kernel:OneApi整合與HelloWorldAPI
- Semantic Kernel 學習筆記:初步體驗用 Semantic Memory 生成 Embedding 並進行語義搜尋筆記
- As a reader --> AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models
- 怎麼使用Stable diffusion中的models
- 翻譯:Bullet Proofing Django Models 待更新Django
- Semantic Kernel 正式釋出 v1.0.1 版本
- Learning Semantic Concepts and Order for Image and Sentence Matching筆記筆記
- 原始碼分析:如何定製Semantic-UI原始碼UI
- Denoising Diffusion Implicit Models(去噪隱式模型)模型
- langchain中的chat models介紹和使用LangChain
- PaperRead - Comparison of Fundamental Mesh Smoothing Algorithms for Medical Surface ModelsGo
- 使用 Semantic Kernel 實現 Microsoft 365 Copilot 架構ROS架構
- Semantic Kernel入門系列:利用Handlebars建立Prompts functionsFunction
- 深入學習Semantic Kernel:建立和配置prompts functionsFunction
- 大型語言模型(Large Language Models)的介紹模型
- Pixel Aligned Language Models論文閱讀筆記筆記
- Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency MapsIDE