Google 搜尋演算法是如何越來越懂你的?

AIBigbull2050發表於2019-11-01



2019-10-28 17:28:52

目前,Google 正在對其核心搜尋演算法進行一項修改,該演算法的改變可能會對多達 1/10 的搜尋結果排名造成影響。而 Google 是如何修改其搜尋演算法的呢?關於 Google 修改演算法的技術,雷鋒網援引相關文章進行了不改變原理的編譯。

Google 搜尋演算法是如何越來越懂你的?

【 圖片來源:THE VERGE所有者:THE VERGE 】

據悉,這一修改是基於 Google 研究人員開發的前沿自然語言處理技術(NLP),它在十個月前就已經應用於其搜尋產品中。Google 聲稱,它可以透過更好地理解單詞在句子中的相互關係來改善結果。此前,Google 在一次新聞釋出會上討論過一個例子,他們的搜尋演算法能夠解析短語的含義——“Can you get medicine for someone pharmacy?”

Google 研究員兼搜尋副總裁 Pandu Nayak 表示,舊的 Google 搜尋演算法是將這句話視為“詞袋”。因此,它會檢視那些重要的單詞,即“medicine”和“pharmacy”,然後再簡單地返回本地結果。而新的演算法能夠理解 “for someone” 這個詞的語境,從而意識到這是一個關於你是否能向別人拿處方的問題,然後返回到正確的結果。

據瞭解,調整後的演算法基於 BERT(雷鋒網按,Bidirectional Encoder Representations from Transformers),即“變壓器的雙向編碼器表示”。重要的是,BERT 不是把句子當做“詞袋”來對待的,而是把句子中的所有單詞作為一個整體來看待,這麼做能夠讓它意識到“for someone”對句子的意義至關重要, 是不能夠被省略的。

值得一提的是,BERT 是透過自我學習去注意到這些詞的。Google 蒐集了一個英語句子的語料庫,隨機刪除了 15% 的單詞,然後 BERT 被設定去指出被刪的單詞是什麼。對此,高階研究員和研究高階副總裁 Jeff Dean 表示,隨著時間推移,這種訓練會使 NLP 模型更有效地理解上下文。

另外,Google 還引用了另一個例子——“parking on a hill with no curb”。其中,“no”一詞對句子的查詢至關重要;但在實現 BRET 演算法之前的 Google 演算法是忽略了這一點的。

Google 搜尋演算法是如何越來越懂你的?

【 圖片來源:THE VERGE所有者:THE VERGE 】

Google 表示,在過去的幾天裡,他們已經推出了新的演算法,新演算法應該會影響到美國 10% 的英語搜尋查詢(其它語言和國家暫不討論)。

雷鋒網瞭解到,為了確保能夠改進結果,所有對搜尋的更改都要經過一系列的測試。在這些測試中,其中有一項是用 Google 的人工稽核隊伍來評估搜尋結果的質量,以此來訓練該公司的演算法。不僅如此,Google 還進行了 live A/ live B 測試。

要知道,不是每次查詢都會受到 BERT 的影響,它只是 Google 用來對搜尋結果排序的許多不同的工具中最新的一個。至於它們是如何協同合作的,這還是一個謎。其實,Google 有意讓其中的一些過程保持神秘,以防止有人利用它的系統傳送垃圾郵件。

而另一個重要的原因是:當電腦利用機器學習做決定時,很難知道為什麼它要作出這些選擇。這就涉及到機器學習的“黑匣子”問題,如果結果在某種程度上是錯誤的話,是很難診斷出原因的。

Google 表示,他們已經努力確保將 BERT 新增到演算法中不會增加偏差——這是機器學習的一個常見問題,機器學習的訓練模型本來就存在偏差。此外,由於 BERT 是在一個巨大的英語句子語料庫中訓練的,並且這個語料庫也有固有偏見,因此,這也是一個值得關注的問題。

Google 還表示,他們預計自己的演算法不會引導流量產生什麼重大變化,至少在大型出版商看來是這樣的。事實上,只要 Google 的搜尋演算法出現變化,整個網路都會關注。

另外,值得一提的是,由於 Google 的搜尋排名有了變化,一些公司也變得生死未卜。其實,每個透過網路流量賺錢的人都應該注意這一點。當提及搜尋結果的質量時,Payak 表示:

這是最大的一個......這是我們在過去 5 年裡所經歷的最積極的變化,可能也是自一開始以來最大的變化之一。

雷鋒網注:本文編譯自 Dieter Bohn 發表在 The Verge 上的文章。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2662202/,如需轉載,請註明出處,否則將追究法律責任。

相關文章