機器學習對於語言類比的理解與識別
當我們聽到機器變得“更聰明”了,已經學會“理解”人類語言,但有些擔憂,他們真的會理解我們說的一切嗎? 他們會比我們聰明嗎? 我們會失去對他們的控制嗎?
當機器變得“聰明”時,他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。
你可能認為理解類比是一個非常人性化的東西,但它有一個數學模擬,它可以被用來產生巨大的效果。 這裡指的是一種稱為詞嵌入的技術。
詞嵌入,也稱為詞向量(或分散式詞表示)是機器學習中相對較新的技術,正在推進機器如何處理自然語言,如英語。 谷歌的研究人員釋出了自己的版本,這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼?”這樣的問題,但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素 。
它是如何工作的? 詞嵌入表示在幾何空間中語言的詞,即,作為數字向量,使用向量之間的數學關係來捕獲詞之間的語義關係。 假設一個向量只是一個數字列表 - 不是每個單詞一個數字,而是一個或許有100個數字的列表。 並且列表上的每個地方用於表示單詞的意義的一個特定方面,例如,它是一個名詞還是它代表女性化這樣程度用詞。 經典的案例中,捕獲關係“國王是男人,女王是女人”這樣關係,所捕獲的各個向量之間的特定數學關係表示是:國王 - 男人+女人=女王。
詞嵌入的美麗在於它們透過關係來捕捉意義。 考慮單詞“女王”與“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之間的不同關係。使用足夠例子,捕獲所有這些關係。 這是機器學習的突破!
谷歌的word2vec專案採用神經網路來學習單詞的向量表示,從大量的示例文字中,例如,數百萬谷歌新聞文章。 除了word2vec,現在還有也doc2vec,用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。
包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。 他們也可以告訴你,“ran”是“run”,因為“spoke”是“speak”,或者“short”是“shorter”,因為“far”是“farther",這裡沒有規則,僅僅是向量空間中的維度,例如,從時態到過去時態的時態的維度,從形容詞到其比較的程度的維度。 當然,有一個規則,是在形容詞後面加"er",這對於理解如“awesomer”之類有用,但它對於普通的單詞“good”(“gooder”)是完全無用的。
Word嵌入可以非常有效地部署在廣泛的任務中。 內容推薦是一個例子。 如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”,就可以推薦類似的產品,標識為“理想切片胡蘿蔔”的描述與其類似,即使這些詞是不同。 在向量空間中,單詞“切碎”和“切片”是接近的,“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。
詞嵌入是人工智慧中最前沿的技術之一,但整體上也只是將智慧數學應用於大量資料上。不要擔心,機器實際上沒有理解任何東西! 他們只是連線我們的語言使用中的隱藏點。
當機器變得“聰明”時,他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。
你可能認為理解類比是一個非常人性化的東西,但它有一個數學模擬,它可以被用來產生巨大的效果。 這裡指的是一種稱為詞嵌入的技術。
詞嵌入,也稱為詞向量(或分散式詞表示)是機器學習中相對較新的技術,正在推進機器如何處理自然語言,如英語。 谷歌的研究人員釋出了自己的版本,這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼?”這樣的問題,但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素 。
它是如何工作的? 詞嵌入表示在幾何空間中語言的詞,即,作為數字向量,使用向量之間的數學關係來捕獲詞之間的語義關係。 假設一個向量只是一個數字列表 - 不是每個單詞一個數字,而是一個或許有100個數字的列表。 並且列表上的每個地方用於表示單詞的意義的一個特定方面,例如,它是一個名詞還是它代表女性化這樣程度用詞。 經典的案例中,捕獲關係“國王是男人,女王是女人”這樣關係,所捕獲的各個向量之間的特定數學關係表示是:國王 - 男人+女人=女王。
詞嵌入的美麗在於它們透過關係來捕捉意義。 考慮單詞“女王”與“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之間的不同關係。使用足夠例子,捕獲所有這些關係。 這是機器學習的突破!
谷歌的word2vec專案採用神經網路來學習單詞的向量表示,從大量的示例文字中,例如,數百萬谷歌新聞文章。 除了word2vec,現在還有也doc2vec,用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。
包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。 他們也可以告訴你,“ran”是“run”,因為“spoke”是“speak”,或者“short”是“shorter”,因為“far”是“farther",這裡沒有規則,僅僅是向量空間中的維度,例如,從時態到過去時態的時態的維度,從形容詞到其比較的程度的維度。 當然,有一個規則,是在形容詞後面加"er",這對於理解如“awesomer”之類有用,但它對於普通的單詞“good”(“gooder”)是完全無用的。
Word嵌入可以非常有效地部署在廣泛的任務中。 內容推薦是一個例子。 如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”,就可以推薦類似的產品,標識為“理想切片胡蘿蔔”的描述與其類似,即使這些詞是不同。 在向量空間中,單詞“切碎”和“切片”是接近的,“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。
詞嵌入是人工智慧中最前沿的技術之一,但整體上也只是將智慧數學應用於大量資料上。不要擔心,機器實際上沒有理解任何東西! 他們只是連線我們的語言使用中的隱藏點。
相關文章
- 語言對比的地方
- Pinterest與FB消費能力對比:圖片勝於語言REST
- 分享一個自然語言漢語時間語義識別的工具類
- C#與Lua語言學習對比一C#
- 機器學習之分類:真與假以及正類別與負類別機器學習
- 模式識別與機器學習(二)模式機器學習
- 用於影像識別的五大最佳程式語言!
- 概念區別 【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】編譯型別
- 主流程式語言的優勢與劣勢對比
- 快商通首席科學家:語音識別的後半段路,從語言處理走向語言理解
- 對於Objective-C新建類的理解Object
- 為什麼動態型別語言相對比較慢?型別
- NLP 與 NLU:從語言理解到語言處理
- C語言與嵌入式C語言的區別C語言
- 模式識別與機器學習——概率分佈模式機器學習概率分佈
- Spark與MapReduce的對比(區別)Spark
- 關於語義類標籤的新理解
- Java與C語言的區別?JavaC語言
- 我對函數語言程式設計的理解函數程式設計
- C語言-識別符號命名C語言符號
- 各大程式語言優缺點對比
- 11大類程式語言功能比較表
- 解釋型語言與編譯型語言的區別?編譯
- 基於Go語言來理解TensorflowGo
- 基於 Go 語言來理解 TensorflowGo
- 機器學習演算法(九): 基於線性判別模型的LDA手寫數字分類識別機器學習演算法模型LDA
- 強型別語言變數和資料型別的理解變數資料型別
- 基於機器學習和TFIDF的情感分類演算法,詳解自然語言處理機器學習演算法自然語言處理
- 模式識別與機器學習——迴歸的線性模型模式機器學習模型
- 形式語言與自動機:實驗二——DFA識別句子
- GO語言————4.1 檔名、關鍵字與識別符號Go符號
- 基於R語言的跨平臺大資料機器學習與資料分析系統R語言大資料機器學習
- Java語言與平臺的區別Java
- 與 C 語言長別離
- 語言小知識-Java ArrayList類 深度解析Java
- 語言小知識-Java HashMap類 深度解析JavaHashMap
- 【Python】Python 對比 C語言的差異PythonC語言
- 機器學習無法解決自然語言理解問題 - thegradient機器學習