深度學習在攜程攻略社群的應用

周建丁發表於2016-07-25

本文來自攜程攻略社群開發總監李健在攜程技術中心主辦的深度學習Meetup中的主題演講,介紹了深度學習在攻略社群領域的主要應用,以及未來的研發方向。

圖片描述

攜程攻略社群是攜程旗下的旅遊攻略類社群,致力於為旅行者提供出行指南和資訊服務。依託攜程2.5億使用者總量,社群日活躍使用者超過500萬,並彙集3000萬條真實使用者的旅行和酒店點評,並有40萬篇旅行遊記,2000位知名旅行達人。面對資料庫中浩如煙海的資訊,我們如何能去其糟粕,留其精華?

攻略社群的主要需求

攻略社群的資料比較複雜,包括了多語種,不同篇幅的自然語言處理,如使用者評論,長短篇幅的遊記,景點官網頁面資料;影像資料處理,如使用者上傳的景點照片等多種應用場景。模型需要在極短的時間內對海量的這些資訊進行正確分類。

圖片描述

深度學習及一些經典模型簡介

介紹淺層機器學習模型和深度學習模型的異同。從傳統的支援向量機(SVM)起始,循序漸進,引出了在今天的分享中扮演了非常重要角色的卷積神經網路模型(CNN)。

從最基本演算法角度簡單明瞭地指出了CNN的特點、優勢和應用場景。除CNN之外,還有詞向量模型(WORD2VEC)、迴圈神經網路(RNN)、長短期記憶人工神經網路(LSTM)和迴圈卷積神經網路(RCNN)。

圖片描述

DL在攻略社群應用

在介紹了攻略社群的特殊需求和主流深度學習模型之後,下一步便是如何根據實際情況和模型特點高效滿足現有的需求。根據資料型別,應用場景又可分為以下若干部分:

  1. 在自然語言處理方面,主要運用CNN模型進行語義情感分析,LSTM模型進行地址質量打分,CNN+Highway+LSTM+Attention模型完成指定景點開放時間的抓取和判斷。

    圖片描述

  2. 在影像處理方面,運用CNN進行影像分類,識別廣告圖片,侵權圖片和非法圖片。以及CNN+LSTM+Attention進行影像中物體檢測以及自動生成圖片對應的帶情感文字描述。

    圖片描述

  3. 在視訊領域中,使用RCNN和LSTM模型對視訊資料進行自動稽核並生成對應文字描述。

    圖片描述

  4. 在資料內容領域中,用模糊神經網路進行目的地和POI資訊的多元資訊匹配。

圖片描述

未來趨勢和關注點

對於攜程攻略社群而言,之後的工作目標除了優化現有模型外,還將從自動糾錯、知識圖譜、虛擬現實和更多更廣泛的深度學習模型入手,進一步提高計算效率和準確率,為使用者帶來更多樣化更好的體驗。

圖片描述

PPT下載:深度學習在攜程攻略社群的應用

本文由攜程技術中心(微信公號:ctriptech)李赫整理,已獲得演講者本人確定及授權刊載,原文發表於攜程技術中心技術部落格
責編:周建丁(zhoujd@csdn.net)


CCAI 2016中國人工智慧大會將於8月26-27日在京舉行,AAAI主席,多位院士,MIT、微軟、大疆、百度、滴滴專家領銜全球技術領袖和產業先鋒打造國內人工智慧前沿平臺,6+重磅大主題報告,4大專題論壇,1000+高質量參會嘉賓,探討人機互動、機器學習、模式識別及產業實戰。門票限時八折優惠中

圖片描述

相關文章