機器學習對於語言類比的理解與識別

banq發表於2016-12-05

當我們聽到機器變得“更聰明”了，已經學會“理解”人類語言，但有些擔憂，他們真的會理解我們說的一切嗎？他們會比我們聰明嗎？我們會失去對他們的控制嗎？

當機器變得“聰明”時，他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。

你可能認為理解類比是一個非常人性化的東西，但它有一個數學模擬，它可以被用來產生巨大的效果。這裡指的是一種稱為詞嵌入的技術。

詞嵌入，也稱為詞向量（或分散式詞表示）是機器學習中相對較新的技術，正在推進機器如何處理自然語言，如英語。谷歌的研究人員釋出了自己的版本，這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼？”這樣的問題，但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素。

它是如何工作的？詞嵌入表示在幾何空間中語言的詞，即，作為數字向量，使用向量之間的數學關係來捕獲詞之間的語義關係。假設一個向量只是一個數字列表 - 不是每個單詞一個數字，而是一個或許有100個數字的列表。並且列表上的每個地方用於表示單詞的意義的一個特定方面，例如，它是一個名詞還是它代表女性化這樣程度用詞。經典的案例中，捕獲關係“國王是男人，女王是女人”這樣關係，所捕獲的各個向量之間的特定數學關係表示是：國王 - 男人+女人=女王。

詞嵌入的美麗在於它們透過關係來捕捉意義。考慮單詞“女王”與“君主”，“公主”，“女人”，“拖”，“王”，“蜜蜂”之間的不同關係。使用足夠例子，捕獲所有這些關係。這是機器學習的突破！

谷歌的word2vec專案採用神經網路來學習單詞的向量表示，從大量的示例文字中，例如，數百萬谷歌新聞文章。除了word2vec，現在還有也doc2vec，用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。

包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。他們也可以告訴你，“ran”是“run”，因為“spoke”是“speak”，或者“short”是“shorter”，因為“far”是“farther"，這裡沒有規則，僅僅是向量空間中的維度，例如，從時態到過去時態的時態的維度，從形容詞到其比較的程度的維度。當然，有一個規則，是在形容詞後面加"er"，這對於理解如“awesomer”之類有用，但它對於普通的單詞“good”（“gooder”）是完全無用的。

Word嵌入可以非常有效地部署在廣泛的任務中。內容推薦是一個例子。如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”，就可以推薦類似的產品，標識為“理想切片胡蘿蔔”的描述與其類似，即使這些詞是不同。在向量空間中，單詞“切碎”和“切片”是接近的，“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。

詞嵌入是人工智慧中最前沿的技術之一，但整體上也只是將智慧數學應用於大量資料上。不要擔心，機器實際上沒有理解任何東西！他們只是連線我們的語言使用中的隱藏點。

For Machines, Analogies Are Just Math - DZone Big

多對多多語言神經機器翻譯的對比學習
2022-01-30
C#與Lua語言學習對比一
2020-07-17
C#
模式識別與機器學習(二)
2019-07-13
模式機器學習
機器學習之分類：真與假以及正類別與負類別
2020-06-21
機器學習
機器學習常用的分類器比較
2018-04-02
機器學習
模式識別與機器學習——概率分佈
2018-11-17
模式機器學習概率分佈
基於課程學習（Curriculum Learning）的自然語言理解
2020-11-13
機器學習無法解決自然語言理解問題 - thegradient
2021-08-10
機器學習
模式識別與機器學習——迴歸的線性模型
2019-01-30
模式機器學習模型
基於機器學習和TFIDF的情感分類演算法，詳解自然語言處理
2022-01-05
機器學習演算法自然語言處理
機器學習之多類別神經網路：一對多
2020-06-28
機器學習神經網路
【EMNLP 2023】基於知識遷移的跨語言機器閱讀理解演算法
2023-12-08
演算法
基於深度學習的機器人目標識別和跟蹤
2022-08-02
深度學習機器人
機器學習演算法（九）: 基於線性判別模型的LDA手寫數字分類識別
2023-03-29
機器學習演算法模型LDA
java學習：虛擬機器對於方法中引數為類型別的如何處理的
2019-10-11
Java虛擬機型別
快商通首席科學家：語音識別的後半段路，從語言處理走向語言理解
2019-09-27
如何用機器學習對文字分類
2019-02-20
機器學習文字分類
機器學習中的類別不均衡問題
2018-09-26
機器學習
【機器學習】手寫數字識別
2022-07-04
機器學習
模式識別與機器學習筆記專欄之貝葉斯分類決策（一）
2020-06-17
模式機器學習筆記
Solidity語言學習筆記————1、初識Solidity語言
2018-06-19
Solid筆記
分享一個自然語言漢語時間語義識別的工具類
2020-11-09
形式語言與自動機：實驗二——DFA識別句子
2020-11-22
關於機器學習需要了解的知識
2019-03-06
機器學習
go與其他語言有什麼區別？學習go語言怎麼樣
2019-11-19
Go
我所理解的機器學習
2024-06-11
機器學習
與MSSQL對比學習MYSQL的心得
2021-09-09
MySql
機器視覺學習筆記：臉性別識別
2019-07-20
視覺筆記
機器學習工作坊 - 自然語言處理
2022-04-21
機器學習自然語言處理
機器學習（十四）機器學習比賽網站
2018-12-06
機器學習網站
go語言學習-基礎知識
2018-03-25
Go
機器學習框架ML.NET學習筆記【4】多元分類之手寫數字識別
2019-05-30
機器學習框架筆記
深度學習與機器學習之間區別 - javaworld
2020-01-09
深度學習機器學習Java
用機器學習識別隨機生成的C&C域名
2020-08-19
機器學習隨機
2018自然語言處理與機器學習論文發表統計
2019-01-12
自然語言處理機器學習
用於影像識別的五大最佳程式語言！
2018-11-09
概念區別【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】
2020-09-24
編譯型別
規則引擎與機器學習比較與結合
2022-08-25
機器學習
基於口罩識別模型，探索機器學習自動化的技術應用
2020-05-14
模型機器學習

機器學習對於語言類比的理解與識別

相關文章