機器學習對於語言類比的理解與識別

banq發表於2016-12-05
當我們聽到機器變得“更聰明”了,已經學會“理解”人類語言,但有些擔憂,他們真的會理解我們說的一切嗎? 他們會比我們聰明嗎? 我們會失去對他們的控制嗎?

當機器變得“聰明”時,他們也就是對大量資料執行花哨的數學運算來回答非常具體的問題。

你可能認為理解類比是一個非常人性化的東西,但它有一個數學模擬,它可以被用來產生巨大的效果。 這裡指的是一種稱為詞嵌入的技術。

詞嵌入,也稱為詞向量(或分散式詞表示)是機器學習中相對較新的技術,正在推進機器如何處理自然語言,如英語。 谷歌的研究人員釋出了自己的版本,這種技術被稱為word2vec。該技術背後的數學有可能回答諸如“誰是鄉村音樂的邁爾斯·戴維斯”或“蘭姆酒的Pappy Van Winkle是什麼?”這樣的問題,但該技術的有用性不止在類比方面 -這個普通的想法甚至是最新機器翻譯的巨大進步的關鍵因素 。

它是如何工作的? 詞嵌入表示在幾何空間中語言的詞,即,作為數字向量,使用向量之間的數學關係來捕獲詞之間的語義關係。 假設一個向量只是一個數字列表 - 不是每個單詞一個數字,而是一個或許有100個數字的列表。 並且列表上的每個地方用於表示單詞的意義的一個特定方面,例如,它是一個名詞還是它代表女性化這樣程度用詞。 經典的案例中,捕獲關係“國王是男人,女王是女人”這樣關係,所捕獲的各個向量之間的特定數學關係表示是:國王 - 男人+女人=女王。

詞嵌入的美麗在於它們透過關係來捕捉意義。 考慮單詞“女王”與“君主”,“公主”,“女人”,“拖”,“王”,“蜜蜂”之間的不同關係。使用足夠例子,捕獲所有這些關係。 這是機器學習的突破!

谷歌的word2vec專案採用神經網路來學習單詞的向量表示,從大量的示例文字中,例如,數百萬谷歌新聞文章。 除了word2vec,現在還有也doc2vec,用於表示整個文件作為向量、tweet2vec甚至emoji2vec 。

包括國王和皇后等具體物件的類比不是這些表示所學到的唯一功能。 他們也可以告訴你,“ran”是“run”,因為“spoke”是“speak”,或者“short”是“shorter”,因為“far”是“farther",這裡沒有規則,僅僅是向量空間中的維度,例如,從時態到過去時態的時態的維度,從形容詞到其比較的程度的維度。 當然,有一個規則,是在形容詞後面加"er",這對於理解如“awesomer”之類有用,但它對於普通的單詞“good”(“gooder”)是完全無用的。

Word嵌入可以非常有效地部署在廣泛的任務中。 內容推薦是一個例子。 如果您的網站的訪問者正在檢視描述“切碎蔬菜是好的”,就可以推薦類似的產品,標識為“理想切片胡蘿蔔”的描述與其類似,即使這些詞是不同。 在向量空間中,單詞“切碎”和“切片”是接近的,“蔬菜”和“胡蘿蔔”也是如此。這種識別文字相似、即使單詞不相同的能力也有助於識別重複的論壇帖子。

詞嵌入是人工智慧中最前沿的技術之一,但整體上也只是將智慧數學應用於大量資料上。不要擔心,機器實際上沒有理解任何東西! 他們只是連線我們的語言使用中的隱藏點。

For Machines, Analogies Are Just Math - DZone Big

相關文章