用AI說再見!“辣眼睛”的買家秀

阿里技術_發表於2019-02-21

640?wx_fmt=png

阿里妹導讀:提起買家秀和賣家秀,相信大家腦中會立刻浮現出諸多畫面。同一件衣服在不同人、光線、角度下,會呈現完全不同的狀態。運營小二需從大量的買家秀中挑選出高質量的圖片。如果單純靠人工來完成,工作量過於巨大。下面,我們看看如何使用演算法,從海量圖片裡找出高質量內容。


說到淘寶優質買家秀內容挖掘,必須從買家秀和賣家秀說起。我們總是能在賣家秀和買家秀中找到強烈反差,比如這樣:


640?wx_fmt=png


這樣:


640?wx_fmt=png


又或者這樣:


640?wx_fmt=png

(圖片來自網路)


買家秀和賣家秀對比這麼一言難盡,那還怎麼讓運營小二們愉快地玩耍?出於運營社群的需要,運營的小二們得從當前的買家秀中抽取出一批高質量的內容,作為社群的啟動資料。


找到高質量的買家秀有那麼難嗎?就是這麼難!這不,運營的小二們碰到了以下幾個問題:


  • 買家秀質量良莠不齊


淘寶海量的買家秀無疑都很難入得了運營小二們的法眼,以業務維度進行篩選的買家秀,稽核通過率普遍不足三成。這意味著,在海量的買家秀中,能被運營小二們看對眼的,無疑是鳳毛麟角。


  • 稽核標準嚴苛


諮詢了運營小二,他們要求圖片視訊必須要美觀,有調性,背景不凌亂,不得擋臉,光線充足,構圖和諧,不得帶有明顯的廣告意圖,以及等等等等……

這麼多要求,難怪挑不著!


  • 稽核工作量巨大


由於運營小二們稽核的買家秀中優質買家秀很少,不得不將大量的時間和精力花費在了稽核低質量買家秀上。


有鑑於此,用機器幫助挖掘優質內容刻不容緩。


優質內容挖掘方案


優質內容挖掘的整體方案如下:

640?wx_fmt=png


全量UGC(User Generated Content)是指所有含圖或含視訊的買家秀。過審UGC是指最終稽核通過的高質量買家秀,加精UGC是指商家認可的買家秀,普通UGC則是上述兩種情況以外的其他買家秀。


我們的核心目標就是要挖掘出豐富而多樣的優質UGC。


UGC質量評估模型


運營人員在稽核買家秀時,通過綜合判斷買家秀的圖片質量和文字內容等方面的因素,來決定是否稽核通過。這促使我們直觀地將將問題轉化為一個分類問題。


1、特徵的選擇


我們首先採用了UGC的使用者特徵、商品特徵和反饋特徵等統計特徵(詳見下表),通過GBDT模型來預估UGC的內容質量,並初步驗證了將UGC質量評估任務轉化為分類問題是可行的。


640?wx_fmt=png


2、分類問題的轉化


一個非常直觀地感受是,將稽核通過的資料標記為1,稽核未通過的資料標記為0,將問題轉化為二分類問題。但在實際訓練中,我們發現,將稽核通過的資料標記為2,將運營稽核未通過(商家已加精)的資料標記為1,將商家未加精的資料標記為0,把問題轉為三分類問題比把問題轉化為二分類問題得到了更好的效果。原因在於,稽核人員在原來的鏈路中只稽核了商家加精的資料,在此基礎上稽核通過與否;而為數眾多的商家未加精的資料沒有稽核到,因此三分類更貼近於真實場景,因此表現更佳。


通過GBDT模型的訓練,在全量UGC資料中進行預測,挖掘出了約400萬優質UGC。自查後發現,這一批資料能挖掘出部分優質UGC,準確率在50%左右,缺點在於圖片質量往往不夠美觀(即使較為貼近使用者的生活場景)。


3、圖片語義特徵的引入


在與業務同學的交流過程中,我們發現,業務同學需要極高質量的UGC內容,以便營造出良好的社群氛圍,讓使用者在洋蔥圈中找到對於美好生活的嚮往,其核心標準就是寧缺毋濫。在充分理解了業務同學的要求,拿到圖片資料後,對於圖片質量的評估勢在必行。


一個較為直觀的方案就是,通過CNN模型訓練,進行圖片質量的評估。


增加影像特徵後,通過對ImageNet預訓練的ResNet50進行fine-tuning,模型表現有了極大提升,與原有鏈路相比,稽核通過率提升了100%以上。


其中含小姐姐的UGC業務同學的認可程度較高(小姐姐們更樂意曬單,更樂意發買家秀,質量也更高),而針對不含小姐姐的長尾類目,業務同學認為主要存在圖片無美感和圖片不相關兩類問題。


圖片無美感的問題主要是由於,CNN更擅長捕捉圖片的語義資訊,而對於美學資訊不敏感。


4、美學特徵的引入


在圖片美感方面,目前有一份較為優秀的資料集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 參見 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。


AVA Database是一個美學相關的資料庫,包含25萬餘張圖片,每張圖片包含語義標註(如自然風光、天空等)、圖片風格標註(如互補色、雙色調等)和圖片美感評分(由數十到數百人評出1-10分)。


在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其網路結構如下:


640?wx_fmt=png


其核心思想是,通過AVA資料集提供的圖片風格標籤,學習圖片風格的隱藏層特徵,將圖片風格的隱藏層特徵和圖片經過HSV變換後的特徵結合起來,以AVA資料集提供的圖片美感分為監督,學習圖片的美感特徵。


在此基礎上,最終在UGC質量稽核模型中採用下述結構評判UGC的質量:


640?wx_fmt=png


以AVA資料集提供的圖片風格標籤和美感評分進行預訓練,通過Brain-inspiredDeep Network提取圖片的美感特徵;通過ResNet提取圖片的語義特徵;通過深度模型刻畫統計特徵;最後將三種特徵拼接起來綜合預測UGC的質量。


引入美學特徵後,驗證集上模型的準確率、召回率和F1值均得到了提升,ABTest顯示,與原有模型相比,稽核通過率提升6%以上。


髒資料處理


除了業務同學提出的問題,在自查過程中,發現目前挖掘出來的UGC內容中仍有以下髒資料:


640?wx_fmt=png


1、評論傾向判定


針對差評UGC,利用現有的元件進行情感分析,發現並不能很好地挖掘出差評評論,容易誤傷。基於此,取過審UGC的評論和UGC中的差評進行訓練,在驗證集上F1值高於0.9,但由於實際預測的資料不同(忽視了中評等),導致容易誤判(如將商品名稱等判斷為差評)。在此基礎上取過審UGC的評論、UGC好評、中評、差評分為四檔進行訓練,在驗證集上F1值稍低,但由於訓練資料更貼近於真實場景,在實際預測中效果更好;目前基本解決了差評UGC的問題,實際自查過程中,沒有再看見差評UGC。


在實際的模型選擇上,Attn-BiLSTM(帶attention的雙向LSTM)效果好於TextCNN(F1score約相差3%),分析原因在於:TextCNN的優勢主要在於捕捉區域性特徵,而很多文字雖然含有吐槽性段落(如批評物流慢等),但整體仍然是對賣家商品的肯定。


2、N-Gram過濾


針對套路評價UGC,通過全域性比較UGC的文字內容,將被多名使用者重複使用的模板UGC過濾掉。


針對重複評價UGC,通過判斷UGC文字內容中重複的2-gram、3-gram、4-gram,結合文字長度和文字資訊熵進行過濾。


3、OCR及影像Hash過濾


針對牛皮蘚圖片,一部分採用了OCR識別和牛皮蘚識別進行過濾。


針對盜圖、網圖UGC,將圖片表示為雜湊值,通過全域性判斷雜湊值在不同買家、不同賣家間的重複次數,進行過濾。在過濾此項的過程中,我們也發現,買家秀中盜圖、網路圖的現象較為普遍,很多肉眼看似原創的內容也涉及盜圖和網圖;此項過濾掉了大多數的UGC。


無關圖識別


解決了上述問題後,仍然較為顯著的問題是無關圖的問題。


無關圖的出現原因較為複雜,表現型別也非常多樣;既有上述提到的盜圖和網路圖,也有使用者隨手拍的風景圖,還包括動漫截圖等各式各樣和商品無關的圖片。


一方面,無關圖以盜圖、表情包、網路圖等為主,通過雜湊值過濾,能夠過濾掉一批無關圖;另一方面,即使過濾以後,預估仍然存在10%-15%左右的無關圖。這部分無關圖的解決較為複雜。


目前所採用的方案是,將盜圖、表情包、網路圖等重複圖片作為負樣本,將過審UGC圖片作為正樣本,通過ResNet提取圖片特徵,將類目通過embedding作為類目特徵,將使用者行為(發表重複圖的數量和比例)作為使用者特徵,判斷該UGC的圖片是否是無關圖。


就這樣,大家終於又能愉快地欣賞美美的買家秀了~~


劃重點


在此分享一些心得體會,希望能對大家有幫助:


  • 資料強於特徵,特徵強於模型;貼近真實場景的資料對提升任務表現貢獻巨大;

  • 如果確實缺乏資料,不妨嘗試快速標註數千條資料,可能取得超出預期的效果;

  • 對ImageNet等資料集預訓練的模型進行fine-tuning可以在小資料集往往能取得更好的問題;

  • 通過影像翻轉、旋轉、隨機裁剪等方法進行資料增強,可以提升模型泛化能力。


論文參考:

[1] HeK , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J].2015.

[2] KimY . Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv,2014.

[3] VaswaniA , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. 2017.

TalebiH , Milanfar P . NIMA: Neural Image Assessment[J]. IEEE Transactions on ImageProcessing, 2017.

[4] YuW , Zhang H , He X , et al. Aesthetic-based Clothing Recommendation[J]. 2018.

[5] Perronnin F , Marchesotti L , Murray N . AVA: A large-scale databasefor aesthetic visual analysis[C]// 2012 IEEE Conference on Computer Vision andPattern Recognition. IEEE Computer Society, 2012.

[6] Vozel B , Ponomarenko N ,Ieremeiev O , et al. Color image database TID2013: Peculiarities andpreliminary results[C]// European Workshop on Visual Information Processing.IEEE, 2013.

[7] ZhangyangWang, Shiyu Chang, Florin Dolcos, Diane Beck, Ding Liu, and Thomas S. Huang.2016. Brain-Inspired Deep Networks for Image Aesthetics Assessment. MichiganLaw Review 52, 1 (2016).


關於作者:曉鴻(歐紅宇)淘寶技術部演算法小二,90後小夥,主攻深度學習、自然語言處理和計算機視覺,目前主要做內容質量稽核提效,pytorch鐵粉。偽文青,最喜歡古文《滕王閣序》。


640?wx_fmt=gif

你可能還喜歡

點選下方圖片即可閱讀


640?wx_fmt=jpeg

獨家揭祕!阿里大規模資料中心的效能分析


640?wx_fmt=jpeg

這是工程師最長情的表白


640?wx_fmt=jpeg

請接收!致演算法工程師的開工賀禮


640?wx_fmt=jpeg

關注「阿里技術」

把握前沿技術脈搏

相關文章