如何運用深度學習從多個維度優化數億級別商品資料

京東發表於2018-10-31

近年來人工智慧成為了科技的熱潮,AlphaGo 的卓越戰績、各大科技公司蜂擁進入自動駕駛領域等訊息吸引著民眾的目光。但其實嚴格意義上這些工作歸屬於同一個學科——機器學習。

人工智慧的目的是教會計算機完成現在人類做得更好的事,而機器學習可以說就是其中最重要的事情,因為它是實現人工智慧的一種方法。沒有學習,計算機就永遠無法跟上人類的步伐;有了學習,一切都與時俱進。目前機器學習成為了一個巨大的中心,通過這個中心,多個領域裡積累的經驗被建模,從而獲得更為快捷廣泛的應用。

深度學習則是一種實現機器學習的技術。其基礎人工神經網路是早期機器學習中一個重要的演算法,最初受到人類大腦生理結構中互相交叉的神經元啟發。隨著無數科研工作者的投入,目前人工神經網路已經可以達到一個極高的層數和億萬計數的神經元,在某些領域做得比人類更好,例如圍棋領域。

作為國內最大的自營電商,京東也積極應用深度學習技術在各個業務線,優化使用者體驗。本文將著重介紹京東如何運用深度學習技術去優化商品資料,構建智慧的商品生態來提升多業務使用者體驗。

如何運用深度學習從多個維度優化數億級別商品資料

京東商品基礎資料主要由自營品牌錄入,第三方商家錄入,使用者反饋組成。這些資料直接被多個核心業務所使用。因此如何利用機器學習技術去保障這龐大的涉及數億商品的海量資料質量尤為關鍵。

同時商品工業屬性的主要組成部分:標題、圖片、銷售屬性、擴充套件屬性、類目。但是由於各種各樣的因素,例如:搶佔搜尋命中的機率,商品上架的隨意性等。商品資料存在商品類目錯誤繫結、圖片與文字屬性不一致、商品標題短語堆砌等各類問題。

為了實現對於商品資料的理解和修正,京東機器學習團隊做了很多工作。下面將從資訊合規、商品圖文不一致校驗、商品類目自動識別、電商標題理解、評論知識抽取來描述這一過程。

資訊合規

目前京東每天圖片增量過億,而文字資訊增量也以 PB 計算。海量的資料難免有一些違規資訊,技術專家利用機器學習演算法,訓練了色情圖片檢測模型,價格 OCR 識別模型,違禁詞語義理解模型,自適應二維碼檢測模型等實現實時的資訊合規。

之前,詐騙分子利用京東圖片系統上傳圖片的功能,上傳含有非法連結的二維碼圖片,誘導使用者轉賬及騙取使用者賬號及密碼資訊,給使用者帶來財產上的損失。利用自適應的二維碼識別技術在使用者上傳圖片的時候進行檢測,不僅能識別圖片中是否包含二維碼、條形碼,還對二維碼指向的連結進行分析,篩選出高危圖片,遮蔽上傳。識別準確率達到 99.9%,即使如圖所示的二維碼只佔圖片很小的比例也能精確識別。

在電商,商品促銷具備高時效性,如何保證促銷資訊與商品實時價格真實匹配,提升使用者體驗是一個難題。實際過程中,許多商家經常只修改了單品頁價格,而忘記對店鋪頁上海報的商品價格進行修改,這就造成了店鋪頁價格和單品頁價格不一致的情況,直接影響到了使用者體驗。

京東基於深度學習的價格合規檢測,在商品價格變更的時候,自動對店鋪頁宣傳圖片進行理解,檢測其中是否包含活動價格,並對價格進行識別,並與單品頁價格對比,如果不一致,實時自動下架該店鋪活動頁的促銷活動,整個過程在秒級完成。在演算法上,通過不斷的迭代優化,實現了端到端的價格數字串識別系統,能夠避免傳統方法單獨字元分割過程中引入的錯誤,即使在壓縮失真、複雜背景干擾等情形下,也能夠達到很高的檢測精度。

圖文不一致校驗

圖文不一致性是由於商品圖片與商品文字描述的不一致導致的,這可能是由於圖片和某一個或者多個文字屬性衝突導致。這表明商品的基礎資料存在錯誤,通常情況下會導致搜尋的錯誤,影響使用者的體驗。

如何運用深度學習從多個維度優化數億級別商品資料

舉一個簡單的例子,當我們在京東購物,搜尋 “男士 polo 衫 純色”時,由於一些商品錯誤的文字資訊導致該商品錯誤的被搜尋命中,呈現給消費者。

上圖中最右下角的格紋襯衫的擴充套件屬性為純色。該屬性明顯與商品圖片不一致,錯誤的資料降低了搜尋的準確率,但是增加了商品的曝光率。為此,我們通過自然語言理解和圖片識別技術來檢測圖文不一致現象,對錯誤資料進行修正和通知商家修改。

如何運用深度學習從多個維度優化數億級別商品資料

高精度的影像識別技術,從商品圖片中識別商品主體並抽取商品的特徵,為文字屬性修正提供高置信度的參照。以衣服的顏色為例,描述衣服顏色的名詞數不勝數,以紅色為例,就有緋紅、桃紅、品紅、鮮紅等等。利用分詞抽取,我們獲取了近萬個顏色欄位。

很多顏色的區分度極小,即便肉眼也很難區分,對訓練資料的收集帶來了很大的困擾。同時由於光照拍攝的問題,如此細分的分類對訓練的結果也不一定有益。為此,我們首先對於顏色屬性進行歸一化,劃分出不到 20 個色系,其餘的屬性也按照類似方法進行歸一化。在準備好訓練資料後,我們採用了 52 層 resnet 殘差網路的 finetuning 實現了多種圖片特徵 95%+ 的準備率模型。後續,我們會加入我們自己的卷積網路特徵去提供準確率。

電商短文字理解 - 商品標題理解

商品的標題由採銷人員和第三方商家命名,其中自營商品的命名較為規範。商家命名時,有些標題除了有文字描述矛盾外,還出現了大量詞彙堆砌的情況。

如何運用深度學習從多個維度優化數億級別商品資料

從圖上可以看到,一個跑步鞋商品的標題上“鞋”出現了 6 次。商家如此命名是為了增加搜尋、推薦等系統命中率。然而實際情況上,搜尋會對於此類詞彙堆砌嚴重的標題進行降權,使得出現在搜尋結果的末端。

為了解決此類問題,提升使用者對於標題的資訊獲取的有效性,我們利用機器學習技術對商品標題進行一系列的處理:分詞、實體識別、屬性打標、熱度計算、中心判定,將商品標題結構化。日後商家錄入標題我們會利用模型結構化標題進行打分,對於此類詞彙堆砌嚴重的標題進行結構優化,從源頭上優化商品標題質量。

商品類目自動識別

每個電商網站都自己的商品類目定義,同時部分類目在發展過程中的拆分合並使得商品存在類目錯綁問題。目前京東有眾多的商品三級工業分類,對於商家上架商品選擇類目也是一個難題。

如何運用深度學習從多個維度優化數億級別商品資料

由於搜尋、推薦、列表頁等核心業務線都呼叫了商品的類目屬性資料,為了降低類目錯綁對核心業務的影響,優化商家上架商品的體驗,我們對 word2vec 的 CBOW 模型進行了創新型改造,構建了 BTC 模型,並加入了 Dropout 層,改造後的模型有效避免了訓練過程中的過擬合問題,訓練精確度明顯提升。模型可根據商家錄入的標題,自動推薦所屬分類,達到了簡化商家上傳商品目的同時減輕類目監管的壓力,使得運營越來越智慧化。模型架構如下圖:

如何運用深度學習從多個維度優化數億級別商品資料

在多次迭代之後我們獲得了 99% 準確率的預測模型,應用方式如下,比如提交:

標題:leandhome 家紡單品被套天鵝絨保暖被罩

返回 “13818 被套”。

整個類目預測流程如下:

如何運用深度學習從多個維度優化數億級別商品資料

評論資訊抽取

商城與使用者的互動對於商品的反饋是商品資料的一個重要補充。使用者的反饋主要包含商品評論,問答,退換貨等資訊。京東的理念是客戶為先,因此我們對於使用者的反饋極為重視。這些資訊可以直觀的展現使用者對於商品的感受和質量的反饋。我們為此構建了多類語義理解模型,利用使用者反饋,實現選品、商品質控等。下面我們選擇評論的資訊抽取著重介紹。

使用者在購買商品時,之前使用者的評論對使用者的購買意願有極強的影響力。但是在使用者海量的評論中存在大量的無意義評論,這就影響到使用者獲取有效的資訊。為此我們通過語言模型,對評論語句打分,將沒有實質意義的評論摺疊在評論最後。

此外我們會從評論中抽取關鍵詞短語,通過對於短語與短語之間相似度的計算,聚合出出現頻次最高的短語及相應的評論內容,展現給使用者。此外我們還會分析使用者評論的情感,真實展現負向情感關鍵詞,給使用者獲得一個直觀的產品描述,誠信對待消費者。

如何運用深度學習從多個維度優化數億級別商品資料

我們採用了無監督與有監督結合的方式構建關鍵詞抽取模型, 在模型設計中,首先考慮到單獨的詞彙表達能力有限,不能滿足業務需求,比如“聲音”、“顏色”、“外觀設計”等,而我們更需要的是,“聲音大”,“顏色豔麗”,“外觀設計時尚大方”等,所以採用了短語向量訓練。然後根據業務其他需求加入了語言模型,情感模型,功能詞模型等,最終取得不錯的成果。我們的模型實現了定期自動更新。

模型會自動把你提交的評論做以上相關分析與處理,返回對應 top 關鍵詞。結果示例:

如何運用深度學習從多個維度優化數億級別商品資料

結語:構建高可用商品知識圖譜,營造智慧商家生態

在對商品資料各個維度(標題、銷售屬性、擴充套件屬性、評論、問答等)完成資料校驗和知識抽取的工作,我們利用這些豐富的商品資訊構建了一個商品的知識庫供核心業務去呼叫,解除了原有業務系統上的資料枷鎖。同時自然語言理解演算法模型被封裝成一個一個服務去規範商品錄入的過程,引導商家健康運營,共同打造良好的商家生態。

如何運用深度學習從多個維度優化數億級別商品資料

劉海鋒,京東商城總架構師,基礎平臺負責人。歷任京東第一屆架構委員會主任、2016 年京東 6.18 和 11.11 大促技術執行總指揮之一  。在京東,劉海鋒領導團隊持續建設容器叢集、中介軟體、資料庫、圖片系統、分散式儲存、機器學習、應用架構與運維等技術方向。在其帶領下,京東商城研發體系基礎平臺部專注於技術服務建設,自主研發了一系列核心系統並大規模應用至生產環境 ,有力驅動了京東業務發展。劉海鋒於中國科技大學計算機係獲得學士與碩士學位,曾經就職於百度等公司。

相關文章