詞向量的運用-用詞向量理解片語的含義

沈昱哈哈哈發表於2016-11-18
  之前花了5篇介紹了word2vec的方法。詞向量最大的意義是把原來的字串變成了一個數字形式的向量,也就是說現在詞和影像變得非常相近,因為影像也就是例如255*255的畫素點,而每個畫素也是一個數字。因此,詞向量被很多工作為初始的輸入,從這開始,我將以輕鬆的形式來介紹詞向量的運用場景。

=

本著先進性的原則,我會介紹最新的16年的論文,以較輕鬆的形式。今天分析這篇:
用詞向量理解片語的含義http://aclweb.org/anthology/Q/Q16/Q16-1002.pdf

Key Idea

作者的核心思想:用詞典的定義來訓練片語,
如 Piano:
A large keyboard musical instrument with a wooden case enclosing a soundboard and metal strings
那麼代表下面一串的片語的向量就應該是piano向量.

訓練的話,使用RNN或者一般的Bag of Word 神經網路。
簡單來說,RNN訓練的目標是
A,large,keyboard,musical,….strings -> Piano
這樣一個序列能夠得到Piano。
而Bag of Word則是
A->Piano, large->Piano, keyboard ->Piano,…strings ->Pinao這樣每個單詞可以得到答案Piano.
乍看之下RNN顯得要比Bag of Word更合理,但是RNN存在vanishing gradient和迭代更新慢的特點,目前還沒有在實用性上得到普及。

效果展示

作者提供了網址來測試他的研究。
我從幾個維度來測試了效果,我先試了
A big company in China

1
可以看到訓練資料應該不包含公司的資訊,RNN輸出的結果基本是亂碼,而BOW輸出的基本為地名,應該是匹配上了Place in China。

我再試了非常正規的詞,路由器。以下定義都是我自己寫的,和詞典的無關。
A device that can access the Internet
2
可以看到這次RNN和BOW都得到了精準的答案,modern,在之前的幾個結果和符合邏輯,什麼server,browser.

最後我試了一個連我都不知道答案的介紹,想看看錶現如何。
A book that can kill people。 一本殺人書!
3png

RNN給出了死靈書這樣的答案,非常給力啊。而BOW則非常中規中矩,給出了一些書的別稱。

自然語言處理尚在發展時期,而不久的將來語義的理解可能不是夢o(∩_∩)o 哈哈。

=


相關文章