淘寶吳雪軍:自然語言處理技術在搜尋和廣告中的應用

鴨脖發表於2015-08-21
摘要:編者按:本文為淘寶廣告技術部廣告演算法負責人、淘寶網研究員吳雪軍在8月3日CTO俱樂部沙龍演講實錄,全文如下: 我今天演講的題目是自然語言處理技術在搜尋和廣告中的應用。搜尋和廣告

編者按:本文為淘寶廣告技術部廣告演算法負責人、淘寶網研究員吳雪軍在8月3日CTO俱樂部沙龍演講實錄,全文如下:

我今天演講的題目是自然語言處理技術在搜尋和廣告中的應用。搜尋和廣告是技術非常密集兩個網際網路產品,它們前端都非常簡單,但後臺系統架構極其複雜。

今天主要講三個方面的內容:第一、主要是介紹一比較典型的網際網路應用體系;第二、主要介紹NLP技術在搜尋中的應用;第三、介紹NLP技術在物聯網廣告中的應用。

NLP技術體系

首先介紹NLP技術體系,NLP技術體系在不同的應用需求、不同的領域下,擁有不同的組織形式。下圖是一種比較典型的面向網際網路應用的技術體系。

在05年之前NLP技術在實際應用中,特別是網際網路應用還中比較多。07年時我參加自然語言學者技術研討會。會上很多人都是國內做NLP技術、自然語言處理技術的前沿代表人物,當時我們討論的主要問題就是NLP技術在實際應用中有沒有價值?

底層為資料層,包含三種型別的資料,1.詞典,詞條譯本在分詞或一些詞法分析內可用到;2.知識庫,內包含一些語言,語義分析處理是比較重要的功能;3.統計的資料,主要是詞彙共現、ngram資料。以上比較有代表性的三個資料。

第二層是Term級。分為詞法分析、Term語義表和Term關係。1.詞法分析包含分詞分詞、詞性標註和未登入詞識別;2.Term語義表包含屬性/類別和語義的表示;3.Term關係包含同義關係、詞彙見關係和知識庫構建。

第三個層短串涉及一些變化,分為短串解析、短串語義表示和短串變換。1.短串解析分為結構分析/淺層句法分析和Term重要性分析;2.短串語義表示包含短串主題分類短串語義表示;3.短串變換包含同義詞替換、語義歸一化以及省略糾錯

第四個層為篇章級,分為單文件分析和多文件分析,在研究領域應用較多,在分析的領域,有諸如PLSA、LDA這樣海量的文字分析技術。

NLP技術在搜尋中的應用

側重介紹在NPL在搜尋引擎和網際網路廣告的應用,下圖為一個簡單的搜尋引擎基礎架構,第一塊為最基本的網頁抓取,第二塊是網頁的分析、索引。第三大塊為一個查詢。藍色的三塊是NLP技術應用比較多的三個方向,我將介紹這三個方向中NLP的應用。

query分析/Rank

 一、短串分析技術,涉及到結構的分析,Term重要性的標註,對短串進行初步的處理。為後續查詢和語義的相關度計算做一些基礎的分析。由於查詢需求有很多不同的表示方法,我們會對query進行改寫,使其能比較好的召回。這其中其實最主要的技術是短串的語義相關性。    

二、語義規化,即相同語義用不同方法表示,這種語義規化技術在搜尋引擎中應用廣泛。語義短串在這裡能很好的被應用,用一種相同的形式表示,然後計算它們之間的關聯。

三、糾錯,我們需要分析使用者需要什麼,對query需求的識別能針對性的滿足使用者不同的需求,或者整合成特定的資料庫用來滿足精確的需求。快速需求識別是比較重要的應用,其中的技術可被理解為對query語義類別的識別,即短串的分類。

在排序上的應用,NLP技術在這裡面體現是相關性計算,query和網頁相關性。在搜尋內Rank代表兩個體系,像百度、谷歌規則為主的系統以及像微軟、雅虎用這種機器學習的Rank系統。在機器學習的Rank起到的作用還是最基本的query文字的語義表示,這些特徵。規則系統裡面會涉及到一些語義的計算、相關性的識別和相關性計算。

在網頁分析和索引中應用主要涉及物件是網頁title、Term權重計算、網頁語義表示和網頁類別識別。

網際網路廣告技術整體架構

NLP在網際網路廣告技術中應用包含了三種型別的廣告技術:使用者行為分析、網頁內容分析/站點分析和Query分析,涉及到很多基本的廣告庫分析,索引。

 如果能定向廣告會涉及到使用者行為分析。要把使用者行為表成一個能去檢索廣告的形式,如果使用者行為很多,這裡面會涉及到行為排序。如果廣告庫很小,我們可能對這個行為的表示可能會抽象一些。如果整個廣告集合很多,侯選廣告很多可以分層次。對於內容廣告而言,會涉及比較多的對網頁內容的分析,這方面主要涉及到最基本網頁主題的提取,另外還會涉及到關聯內容分析,因為廣告一般都具有商業價值的內容,我們會把廣告內容關聯到有商業價值的內容上去,做到對廣告的匹配。

對於搜尋廣告而言,請求分析主要是query分析,與搜尋大體一樣。對使用者的基本請求解析完之後,會涉及到怎麼去匹配廣告如果廣告集合很大我們不可能對每個廣告做相關性計算,所以先要保證能夠把相關的廣告召回做一個集合,然後對這個集合進行相關性計算。

   

最後一方面的應用是廣告排序,收費在搜尋廣告裡是很重要的形式,按點選量來收費,所以排序最主要的是預測其點選率作為排序的依據。預測點選率後我們根據其價格算出其基本的收益。其最核心的技術是預估點選率,CTR是排序的核心。語義特徵的表示,以及相關性的機損,廣告可以有一部分特徵語義來表示。

相關文章