詞向量的運用-用詞向量理解片語的含義
之前花了5篇介紹了word2vec的方法。詞向量最大的意義是把原來的字串變成了一個數字形式的向量,也就是說現在詞和影像變得非常相近,因為影像也就是例如255*255的畫素點,而每個畫素也是一個數字。因此,詞向量被很多工作為初始的輸入,從這開始,我將以輕鬆的形式來介紹詞向量的運用場景。
=
本著先進性的原則,我會介紹最新的16年的論文,以較輕鬆的形式。今天分析這篇:
用詞向量理解片語的含義http://aclweb.org/anthology/Q/Q16/Q16-1002.pdf
Key Idea
作者的核心思想:用詞典的定義來訓練片語,
如 Piano:
A large keyboard musical instrument with a wooden case enclosing a soundboard and metal strings
那麼代表下面一串的片語的向量就應該是piano向量.
訓練的話,使用RNN或者一般的Bag of Word 神經網路。
簡單來說,RNN訓練的目標是
A,large,keyboard,musical,….strings -> Piano
這樣一個序列能夠得到Piano。
而Bag of Word則是
A->Piano, large->Piano, keyboard ->Piano,…strings ->Pinao這樣每個單詞可以得到答案Piano.
乍看之下RNN顯得要比Bag of Word更合理,但是RNN存在vanishing gradient和迭代更新慢的特點,目前還沒有在實用性上得到普及。
效果展示
作者提供了網址來測試他的研究。
我從幾個維度來測試了效果,我先試了
A big company in China
可以看到訓練資料應該不包含公司的資訊,RNN輸出的結果基本是亂碼,而BOW輸出的基本為地名,應該是匹配上了Place in China。
我再試了非常正規的詞,路由器。以下定義都是我自己寫的,和詞典的無關。
A device that can access the Internet
可以看到這次RNN和BOW都得到了精準的答案,modern,在之前的幾個結果和符合邏輯,什麼server,browser.
最後我試了一個連我都不知道答案的介紹,想看看錶現如何。
A book that can kill people。 一本殺人書!
RNN給出了死靈書這樣的答案,非常給力啊。而BOW則非常中規中矩,給出了一些書的別稱。
自然語言處理尚在發展時期,而不久的將來語義的理解可能不是夢o(∩_∩)o 哈哈。
=
相關文章
- 詞向量word to vector通俗理解
- 用深度學習來獲取文字語義:詞向量應用於自然語言處理深度學習自然語言處理
- 詞向量入門
- elasticsearch高亮之詞項向量Elasticsearch
- 親手做的詞向量分佈圖
- 構建RAG應用-day01: 詞向量和向量資料庫 文件預處理資料庫
- LLM中詞向量的表示和詞嵌入的一些疑問
- 手把手教你用飛槳做詞向量模型 SkipGram模型
- 將使用jieba分詞的語料庫轉化成TFIDF向量Jieba分詞
- 入門自然語言處理必看:圖解詞向量自然語言處理圖解
- GitHub上中文詞向量(Chinese Word Vectors)的下載地址Github
- 淺談文字詞向量轉換的機制embedding
- 特徵值與特徵向量的幾何含義(轉)特徵
- 文字資料分析——主題提取+詞向量化
- 分析日記中的單詞的含義
- NLP教程(2) | GloVe及詞向量的訓練與評估
- 面向機器智慧的TensorFlow實戰7:詞向量嵌入
- 通過NMT訓練出通用的語境詞向量:NLP中的預訓練模型?模型
- 透過NMT訓練出通用的語境詞向量:NLP中的預訓練模型?模型
- 利用詞向量進行推理(Reasoning with word vectors)
- 自然語言處理的一大步,應用Word2Vec模型學習單詞向量表徵自然語言處理模型
- 特徵向量的物理意義特徵
- 向量圖示的管理和應用
- 圖片與向量的關係
- EMNLP 2019 | 基於BERT的跨語言上下文相關詞向量在零樣本依存分析中的應用
- 9、阿里巴巴向量相簿icon-font的運用阿里
- 理解支援向量機
- pgsql的向量外掛啟用問題SQL
- 向量(高階的隨機化應用)隨機
- 亂燉“簡書交友”資料之程式碼(2):關鍵詞抽取、Word2Vec詞向量
- 神經網路語言模型中,詞向量為什麼可以隨著模型的迭代而改變?神經網路模型
- Vector Magic for mac(向量圖片轉換工具)1.2.0啟用版Mac
- 向量定義筆記筆記
- 文字情感分析(二):基於word2vec和glove詞向量的文字表示
- Vector Magic for mac 1.2.0免啟用版 向量圖片轉換工具Mac
- Elasticsearch 近義詞詞庫配置Elasticsearch
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 基於PaddlePaddle的詞向量實戰 | 深度學習基礎任務教程系列深度學習