機器學習對於語言類比的理解與識別
當我們聽到機器變得“更聰明”了,已經學會“理解”人類語言,但有些擔憂,他們真的會理解我們說的一切嗎? 他們會比我們聰明嗎? 我們會失去對他們的控制嗎?
當機器變得“聰明”時,他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。
你可能認為理解類比是一個非常人性化的東西,但它有一個數學模擬,它可以被用來產生巨大的效果。 這裡指的是一種稱為詞嵌入的技術。
詞嵌入,也稱為詞向量(或分散式詞表示)是機器學習中相對較新的技術,正在推進機器如何處理自然語言,如英語。 谷歌的研究人員釋出了自己的版本,這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼?”這樣的問題,但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素 。
它是如何工作的? 詞嵌入表示在幾何空間中語言的詞,即,作為數字向量,使用向量之間的數學關係來捕獲詞之間的語義關係。 假設一個向量只是一個數字列表 - 不是每個單詞一個數字,而是一個或許有100個數字的列表。 並且列表上的每個地方用於表示單詞的意義的一個特定方面,例如,它是一個名詞還是它代表女性化這樣程度用詞。 經典的案例中,捕獲關係“國王是男人,女王是女人”這樣關係,所捕獲的各個向量之間的特定數學關係表示是:國王 - 男人+女人=女王。
詞嵌入的美麗在於它們透過關係來捕捉意義。 考慮單詞“女王”與“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之間的不同關係。使用足夠例子,捕獲所有這些關係。 這是機器學習的突破!
谷歌的word2vec專案採用神經網路來學習單詞的向量表示,從大量的示例文字中,例如,數百萬谷歌新聞文章。 除了word2vec,現在還有也doc2vec,用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。
包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。 他們也可以告訴你,“ran”是“run”,因為“spoke”是“speak”,或者“short”是“shorter”,因為“far”是“farther",這裡沒有規則,僅僅是向量空間中的維度,例如,從時態到過去時態的時態的維度,從形容詞到其比較的程度的維度。 當然,有一個規則,是在形容詞後面加"er",這對於理解如“awesomer”之類有用,但它對於普通的單詞“good”(“gooder”)是完全無用的。
Word嵌入可以非常有效地部署在廣泛的任務中。 內容推薦是一個例子。 如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”,就可以推薦類似的產品,標識為“理想切片胡蘿蔔”的描述與其類似,即使這些詞是不同。 在向量空間中,單詞“切碎”和“切片”是接近的,“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。
詞嵌入是人工智慧中最前沿的技術之一,但整體上也只是將智慧數學應用於大量資料上。不要擔心,機器實際上沒有理解任何東西! 他們只是連線我們的語言使用中的隱藏點。
當機器變得“聰明”時,他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。
你可能認為理解類比是一個非常人性化的東西,但它有一個數學模擬,它可以被用來產生巨大的效果。 這裡指的是一種稱為詞嵌入的技術。
詞嵌入,也稱為詞向量(或分散式詞表示)是機器學習中相對較新的技術,正在推進機器如何處理自然語言,如英語。 谷歌的研究人員釋出了自己的版本,這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼?”這樣的問題,但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素 。
它是如何工作的? 詞嵌入表示在幾何空間中語言的詞,即,作為數字向量,使用向量之間的數學關係來捕獲詞之間的語義關係。 假設一個向量只是一個數字列表 - 不是每個單詞一個數字,而是一個或許有100個數字的列表。 並且列表上的每個地方用於表示單詞的意義的一個特定方面,例如,它是一個名詞還是它代表女性化這樣程度用詞。 經典的案例中,捕獲關係“國王是男人,女王是女人”這樣關係,所捕獲的各個向量之間的特定數學關係表示是:國王 - 男人+女人=女王。
詞嵌入的美麗在於它們透過關係來捕捉意義。 考慮單詞“女王”與“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之間的不同關係。使用足夠例子,捕獲所有這些關係。 這是機器學習的突破!
谷歌的word2vec專案採用神經網路來學習單詞的向量表示,從大量的示例文字中,例如,數百萬谷歌新聞文章。 除了word2vec,現在還有也doc2vec,用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。
包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。 他們也可以告訴你,“ran”是“run”,因為“spoke”是“speak”,或者“short”是“shorter”,因為“far”是“farther",這裡沒有規則,僅僅是向量空間中的維度,例如,從時態到過去時態的時態的維度,從形容詞到其比較的程度的維度。 當然,有一個規則,是在形容詞後面加"er",這對於理解如“awesomer”之類有用,但它對於普通的單詞“good”(“gooder”)是完全無用的。
Word嵌入可以非常有效地部署在廣泛的任務中。 內容推薦是一個例子。 如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”,就可以推薦類似的產品,標識為“理想切片胡蘿蔔”的描述與其類似,即使這些詞是不同。 在向量空間中,單詞“切碎”和“切片”是接近的,“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。
詞嵌入是人工智慧中最前沿的技術之一,但整體上也只是將智慧數學應用於大量資料上。不要擔心,機器實際上沒有理解任何東西! 他們只是連線我們的語言使用中的隱藏點。
相關文章
- 多對多多語言神經機器翻譯的對比學習
- C#與Lua語言學習對比一C#
- 模式識別與機器學習(二)模式機器學習
- 機器學習之分類:真與假以及正類別與負類別機器學習
- 機器學習常用的分類器比較機器學習
- 模式識別與機器學習——概率分佈模式機器學習概率分佈
- 基於課程學習(Curriculum Learning)的自然語言理解
- 機器學習無法解決自然語言理解問題 - thegradient機器學習
- 模式識別與機器學習——迴歸的線性模型模式機器學習模型
- 基於機器學習和TFIDF的情感分類演算法,詳解自然語言處理機器學習演算法自然語言處理
- 機器學習之多類別神經網路:一對多機器學習神經網路
- 【EMNLP 2023】基於知識遷移的跨語言機器閱讀理解演算法演算法
- 基於深度學習的機器人目標識別和跟蹤深度學習機器人
- 機器學習演算法(九): 基於線性判別模型的LDA手寫數字分類識別機器學習演算法模型LDA
- java學習:虛擬機器對於方法中引數為類型別的如何處理的Java虛擬機型別
- 快商通首席科學家:語音識別的後半段路,從語言處理走向語言理解
- 如何用機器學習對文字分類機器學習文字分類
- 機器學習中的類別不均衡問題機器學習
- 【機器學習】手寫數字識別機器學習
- 模式識別與機器學習筆記專欄之貝葉斯分類決策(一)模式機器學習筆記
- Solidity語言學習筆記————1、初識Solidity語言Solid筆記
- 分享一個自然語言漢語時間語義識別的工具類
- 形式語言與自動機:實驗二——DFA識別句子
- 關於機器學習需要了解的知識機器學習
- go與其他語言有什麼區別?學習go語言怎麼樣Go
- 我所理解的機器學習機器學習
- 與MSSQL對比學習MYSQL的心得MySql
- 機器視覺學習筆記:臉性別識別視覺筆記
- 機器學習工作坊 - 自然語言處理機器學習自然語言處理
- 機器學習(十四) 機器學習比賽網站機器學習網站
- go語言學習-基礎知識Go
- 機器學習框架ML.NET學習筆記【4】多元分類之手寫數字識別機器學習框架筆記
- 深度學習與機器學習之間區別 - javaworld深度學習機器學習Java
- 用機器學習識別隨機生成的C&C域名機器學習隨機
- 2018自然語言處理與機器學習論文發表統計自然語言處理機器學習
- 用於影像識別的五大最佳程式語言!
- 概念區別 【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】編譯型別
- 規則引擎與機器學習比較與結合機器學習
- 基於口罩識別模型,探索機器學習自動化的技術應用模型機器學習