工程師訪談 | 初心在方寸,咫尺在匠心,愛奇藝NLP的成長之路

愛奇藝技術產品團隊發表於2020-07-01

導語

當你開啟某個影片App時可能會出現幾個場景,比如,你可能會根據標籤/分類瀏覽是否有自己感興趣的內容,在此同時也會根據你以往的瀏覽習慣推薦給你感興趣的內容,又或者直接在搜尋欄中輸入腦海中的關鍵詞查詢……別看這些都是很常見的小動作,背後卻有很多人為之努力著,其中用到的一項重要的技術就是自然語言處理(NLP)。


NLP能有效實現自然語言通訊計算機系統,彷彿學會了“讀心術”,理解人類的語言邏輯,能使海量影片個性化推薦給使用者,又或者快速理解和精準的匹配使用者輸入的關鍵字並快速湧現出來,努力為使用者創造便捷和提供更加精細化的體驗。


 淺談NLP:讓機器讀懂人類語言成為使命 
到底什麼是NLP呢?
它是非常複雜的因為它涉及到人類的認知層面,比如知識、語言、思考、行為等,NLP會和文字、語音、影像、影片等多模態的資訊融合學習,其實最難的核心問題有兩個:就是語義的歧義和語法的變化,因為人類的語言每天都在發生變化,新詞總在源源不斷的產生,人類也會因為個體的語音習慣不同產生差異,無法精準統一,而計算機語言是精確的、可列舉的、無歧義的。所以人的語言與計算機語言是不可完全調和的。
當我們遇到不認識的字時,比如“丼”,就會去搜尋欄輸入類似“井字裡面加一點讀什麼?”這樣的問題。如果計算機僅根據字面加以解讀,那可能就會顯示含有“井”或者“點”的內容,如“井點降水”“井點系統”。
但是我們真正目的是讓計算機幫我們找到“丼”這個字。為了避免這樣的誤解,就需要計算機在字面理解的基礎上,更深一層的明白搜尋者的想法和意圖,也就是NLP團隊所研究的內容和方向。
現如今NLP的應用領域十分廣泛,包括語音識別 、內容理解、資訊檢索、資訊抽取、問答系統、機器翻譯、對話系統等,幾乎只要涉及到文字的領域都有NLP的身影。
愛奇藝NLP團隊幾乎都會涉及到這些技術,目前團隊自主研發了詞法分析(分詞、詞性分析、實體識別、詞權重計算等)、內容標籤、機器翻譯、輿情分析等系統,給公司各個業務線提供NLP基礎服務。目前已有80個以上的業務線對接了NLP的服務。另一方面,由於NLP團隊誕生於搜尋團隊,他們利用NLP技術不斷提升愛奇藝App搜尋結果的精準度,最佳化搜尋的使用體驗。
目前,愛奇藝在NLP技術領域尤其是在分詞、實體識別、內容標籤等演算法方面,短影片標題上的評測效果都優於學術界和工業界,NLP技術團隊因其注重細節、精益求精的工作精神被稱為楷模團隊。

 匠心源於追求極致,奮戰90個日夜只為“奇搜” 

早期愛奇藝還沒有一個完整的搜尋團隊,“當時是搜尋、推薦等多個業務整合在一起成立了一個資料組。那時候,搜尋用的還是Lucene,(Lucene是早期使用的一種搜尋引擎開源工具),對於處於起步階段的業務,可以快速實現搜尋功能。

但是隨著公司業務的發展,索引量和搜尋量快速的增長,這時候使用開源工具侷限性就很明顯了,服務的效能、穩定性、可擴充套件性等都比較差,所以必須要重新開發一套新的搜尋系統,來滿足公司業務的發展需求。

於是搜尋團隊僅有的4個人天天擠在一個小會議室裡一起,不分白天黑夜的連續奮戰了90天封閉開發,他們獨立開發了一套愛奇藝的搜尋系統“奇搜”終於上線,就這樣他們的“奇搜”從無到有,為現今的愛奇藝搜尋系統造就了穩健的根基,搜尋量也從當時的百萬量級,發展到現今日均搜尋量數億的搜尋引擎。

於此同時,NLP的基礎模組也在這個時候從無到有逐步的被開發出來。第一個模組是中文分詞系統,因為分詞系統是搜尋引擎的基礎性模組,對於搜尋引擎的效果發揮著重要的影響。

透過不斷的進行效果和功能完善,到現在已經發展成為了一個包含分詞、詞性標註、實體識別、實體連結、詞權重計算等功能的詞法分析系統,在較好的滿足了搜尋系統的同時,也進行了技術輸出,目前已經給公司超過40個業務線提供了服務,日介面呼叫量高峰超過了10億,在公開資料集上的評測效果優於結巴分詞、ICTCLAS、哈工大LTP分詞等第三方開源工具。


  做思想和行為的踐行者,不斷突破技術難關 

近年來短影片目前已經成為了一種主流的媒介形態,為了提升短影片的分發效率,NLP團隊開始負責短影片的“內容標籤”,內容標籤作為短影片內容理解的重要手段,其中內容標籤需根據不同的短影片內容生成關鍵詞或短語,用來表徵短影片的內容,其操作難度很大。“內容標籤”的主要應用在個性化推薦、搜尋、長短影片關聯等等。
“內容標籤我們一直在持續最佳化,如何將業務模型抽象出來匹配到一個合適的演算法模型,是我們面對的第一個問題。”NLP團隊同事回憶道“在整個技術最佳化和迭代的過程中,愛奇藝NLP團隊從文字模型——文字+封面圖模型——文字+封面圖+影片理解模型這三個階段不斷提升和迭代,從單一形態的文字模型到多模態的融合方式,首先他們會根據實際應用的需要,使用一種較為適用的模型來解決現有問題。
但在嘗試某個模型的過程中,可能會遇到的一些新的難點。他們會就再次出擊去突破現有模型的問題。透過不斷的進行技術迭代,內容標籤的效果得到了明顯的提升,目前已經有20個以上的業務使用了NLP內容標籤服務。“我們會繼續持續關注行業進展,並結合業務方的反饋,持續迭代短影片內容標籤模型,以便更好的服務於業務方”。

 

  神奇讀心術的秘密,Query理解有妙招  

經歷過演算法的瓶頸,經歷過封閉開發的煎熬,作為NLP技術開發人員的苦與樂,箇中滋味他們早已知曉。NLP在愛奇藝的業務應用當中,很大一部分是要同搜尋相結合,這其中最為核心的模組就是Query理解。
理解使用者輸入的Query就是理解使用者真正的搜尋意圖,在搜尋的時候更準確地匹配到合適的資訊條目。從最初的Query糾錯、同義詞擴充套件,到意圖識別、語義搜尋、知識圖譜構建等,每個模組都帶來了搜尋指標和體驗的大幅提升。
到現在NLP團隊依然在Query理解上面投入了較多的人力,因為只有Query理解做好了,後面的搜尋相關性才有可能取得較好的效果。“Query理解更像是人的大腦,一方面它會理解使用者的搜尋意圖,另一方面根據使用者不同的搜尋意圖,在排序的時候做不同的處理”。
Query的引導在搜尋系統中也發揮著重要的作用,它一方面能輔助使用者的輸入,提升使用者的使用體驗,另一方面可以對使用者做一些引導,把愛奇藝最好的並且符合使用者興趣的內容個性化推薦給使用者。
目前NLP團隊負責的搜尋Suggest、個性化預設搜尋詞、搜尋發現、語音助手等搜尋入口,搜尋Query的來源佔比已經達到了50%以上。將NLP和個性化推薦演算法進行結合,不但能發揮NLP團隊的特長,還能擴充NLP團隊的技能,能更好的滿足搜尋的業務需求。

  助攻、領跑是技術專家和技術Leader的必備素養  

提到作為技術專家也是團隊的Leader時兩個角色怎麼轉換時,團隊從事NLP技術研發多年的同事分享道,“兩個角色不能脫離需要相互補充相互融合,要自己以身作則,也給團隊的同事們起到良好的榜樣這樣同事才會真正信任你。”
提到對於同行者的建議說道:“技術發展日新月異,要保持一顆持續的學習熱情,只有透過不斷的學習才能將行業最新的進展應用到專案中;在最佳化專案效果的同時提升自己的能力,在專案中多嘗試,找出現在的問題並進行持續改進。注意思考和總結,把專案的經驗變成自己的方法論。”
帶領技術團隊時,將最大化發揮團隊價值、對業務方產生幫助掛在心上。作為專家時,要著重注重團隊夥伴的業務提升,與團隊小夥伴建立信任關係,幫助他們的成長。對於團隊成員,儘量保持公平,多給大家一些機會,以及公平的評價大家的工作成果。無論你是團隊中的專家、還是團隊的Leader要做到助攻、領跑兩不誤。


  後記:匠心源於熱愛,源於專注  


在愛奇藝簡單想,簡單做的企業文化中,因為熱愛,追求探索;因為簡單,所以專注是當前NLP團隊堅持的原則。沒有哪一份工作是真正輕鬆的,想要做好一份工作必然需要我們投入大量的時間和精力,去打磨、積累和研究。
在忙碌中,不斷挑戰新的難題,努力擴充套件自己的“技能樹”,鼓勵同事自發驅動各種創新,在提升自己的能力同時,為團隊、為他人創造出更大的價值,是工作帶給我們最大的滿足。

寫在最後
 

生命原本就是一個追尋的過程,學會擔當,學會原諒,學會扛起責任和義務,哼一支小曲,悠然前行。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945252/viewspace-2701663/,如需轉載,請註明出處,否則將追究法律責任。

相關文章