京東商城背後AI技術揭祕（二）——基於商品要素的多模態商品摘要

京東智聯雲開發者發表於2020-04-04

原文網址 : https://www.jiqizhixin.com/articles/2020-04-03-13

導言

人工智慧技術在電商領域，有著豐富的應用場景。應用場景是資料入口，資料通過技術得到提煉，反過來又作用於技術，二者相輔相成。

京東基於自然語言理解與知識圖譜技術，開發了商品營銷內容AI寫作服務。並將此項技術應用到了京東商城【發現好貨】頻道中。

通過AI創作的數十萬商品營銷圖文素材，不僅填補了商品更新與達人寫作內容更新之間的巨大缺口，也提升了內容頻道的內容豐富性。

同時，AI生成內容在曝光點選率、進商詳轉化率等方面其實都表現出了優於人工創作營銷的內容。

接下來讓我們一起來看看，針對不同群體採用不同營銷策略及不同風格的營銷文案從而提高營銷轉化率是怎樣通過AI來實現的。

與傳統的文字摘要任務相比，商品摘要任務更具挑戰性。一方面，商品給顧客的第一印象來自該商品的外觀，這對顧客的購買決策有著至關重要的影響。因此，商品摘要系統必須能夠充分挖掘商品視覺資訊，反映商品的外觀特色。另一方面，不同的產品有不同的賣點。例如，緊湊型冰箱的優點是節省空間，而環保型冰箱的優點是節能。因此，商品摘要應該反映商品最獨特的方面，從而最大限度地促成消費者的購買。

本文接下來將介紹由京東 AI 研究院提出的一種電商商品的多模態摘要模型，該模型可以有效地整合商品的視覺和文字資訊來生成賣點突出、流暢和簡潔的商品文字摘要。

論文的標題為：Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products ，發表於 AAAI 2020。

論文連結：

http://box.jd.com/sharedInfo/2926429040ECC7D3

1、多模態摘要模型

如下圖1所示，商品廣告含有大量的文字介紹，顧客很難在短時間內在這些廣告中獲取有價值的商品資訊，尤其是當顧客想要比較多個商品時，將會耗費大量的時間，影響了購物體驗。商品摘要模型可以為商品生成文字摘要，為潛在消費者提供了短時間內瞭解商品的便利。從消費者決策的角度出發，一個好的商品摘要需要反映商品的外觀特色和賣點資訊，這也是本文提出的商品摘要模型的出發點。

論文中構建了一箇中文商品摘要資料集，該資料集包含約140萬個“商品-摘要”對，涵蓋家電、服飾和箱包品類。在該資料集上的實驗結果表明，文中提出的模型在自動評價和人工評價指標上都顯著優於其他對比方法。

2、模型介紹

如圖2所示，論文中提出的商品摘要模型基於指標-生成器網路（Pointer-Generator）。採用了三種策略將商品影像資訊融入模型中，包括使用商品圖片的全域性特徵初始化編碼器，使用商品圖片的全域性特徵初始化解碼器，以及使用商品圖片的區域性特徵，通過注意力機制生成圖片上下文向量參與解碼。

圖2

首先，對商品要素進行建模（所謂的商品要素，就是商品不同方面的屬性。例如：對洗衣機而言，商品要素包括容量和能耗等），然後從商品的要素出發，對摘要的重要性、非冗餘性和可讀性進行建模。

(1)採用基於商品要素的RAML（reward augmented maximum likelihood）訓練，鼓勵模型生成的摘要涵蓋商品的特色要素。如圖2（b）所示，該商品ground-truth特色要素是容量、操控與電機，則該模型將會鼓勵生成描述容量、操控與電機相關的文字；

(2)採用基於商品要素的覆蓋度機制消除冗餘資訊。傳統覆蓋度機制僅能在詞維度進行去冗餘，難以處理相關詞冗餘問題。如圖2（c）所示，“noise”、“quiet”和“tranquil”均在描述“執行聲音”這一商品要素，如果僅對“noise”進行去冗餘，難以保證“quiet”和“tranquil”不出現摘要中。本文提出的模型通過商品要素維度的去冗餘，可以避免“noise”、“quiet”和“tranquil”同時出現在摘要中；

(3)通過商品要素放回跳機制提高摘要的可讀性。如圖2（d）所示，商品要素的回跳描述降低了商品摘要的連貫性，影響了消費者的閱讀體驗。本文提出的模型通過解碼時禁用回跳要素詞，有效地避免了這一現象。

3、實驗結果

如表1所示，本文提出的帶有的多模態商品摘要模型，MMPG模型取得了比所有基於純文字的模型更好的結果，這證明了商品視覺資訊和商品要素資訊在商品摘要任務中起著重要的作用。

表1

4、總結

論文提出了一個多模態商品摘要模型，其可以利用商品影像、標題和其他文字介紹，為商品生成摘要。文中提出的模型可以有效地利用商品的視覺資訊，並反映商品的特色要素，從重要性、非冗餘性和可讀性的角度對商品要素進行了有效的建模。

對於電商而言，海量商品的營銷內容在由達人供稿的過程中，受限於達人寫作的效率限制，商品更新速度明顯高於營銷內容上線速度，導致內容短缺。

AI生成內容在生成效率、曝光點選率、訂單轉化率等方面其實都表現出了優於人工創作營銷的內容。該方法正在應用於垂直電商、綜合電商、社交電商、新媒體平臺等眾多場景。

P.S 同時也歡迎對NLP、文字生成和自動文摘感興趣的小夥伴加入我們。相關資訊諮詢，可在後臺給我們留言哦~

京東 AI 研究院：

京東AI研究院專注於持續性的演算法創新，多數研究將由京東實際的業務場景需求為驅動。研究院的聚焦領域為：計算機視覺、自然語言理解、對話、語音、語義、機器學習等實驗室，已逐步在北京、南京、成都、矽谷等全球各地設立職場。

京東商城背後AI技術揭秘（二）——基於商品要素的多模態商品摘要
2020-04-04
AI
京東商城背後AI技術揭祕（一）——基於關鍵詞導向的生成式句子摘要
2020-04-03
AI
京東商城背後AI技術揭秘（一）——基於關鍵詞自動生成摘要
2020-04-02
AI
揭祕.NET Core剪裁器背後的技術
2022-03-21
京東商品詳情介面，京東商品優惠券介面，京東商品分析資料介面，京東API介面封裝程式碼
2023-04-07
API封裝
首次揭祕！阿里無人店系統背後的技術
2018-10-19
阿里
2019京東商品短影片報告
2020-03-08
京東商品列表介面，商品銷量排序介面，商品價格排序介面程式碼展示
2023-02-27
排序
京東APP百億級商品與車關係資料檢索實踐 | 京東雲技術團隊
2023-05-15
APP
京東商品詳情資料採集介面（商品銷量，商品標題，商品優惠券，商品列表）程式碼展示
2023-03-08
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
【京東】商品list列表採集+類目下的商品列表資料採集
2023-04-23
京東獲得店鋪的所有商品 API
2023-03-08
API
支撐2715億元海量訂單揭祕京東大促背後的資料庫基石
2020-11-18
資料庫
Javascript抓取京東、淘寶商品資料
2023-10-19
JavaScript
揭祕 · 外賣系統背後的AI人工智慧
2020-10-29
AI人工智慧
【雲中論道】揭祕短視訊爆紅背後的技術支柱
2018-04-19
拼多多：商品詳情背後的秘密
2023-11-30
解密京東千億商品系統核心架構
2018-10-10
解密架構
用java爬取京東商品頁注意點
2024-12-08
Java
百度技術開放日即將開啟揭祕春晚紅包背後的技術
2019-03-25
2692億背後，京東智聯雲以技術守護京東618，助力消費再創新高
2020-06-21
教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）
2018-10-31
Python執行緒
跬步至千里：揭祕谷歌AutoML背後的漸進式搜尋技術
2018-03-28
谷歌TOML
網付：揭祕聚合支付背後的真相
2022-04-26
專訪5位技術人，探祕AI酷職業背後的故事 
2018-08-05
AI
專訪5位技術人，探祕AI酷職業背後的故事
2018-08-02
AI
京東按圖搜尋京東商品（拍立淘） API 返回值說明
2023-03-08
API
移動商城第三篇（商品管理）【查詢商品、新增商品】
2021-09-09
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
電商API分享：京東獲得JD商品詳情
2023-02-24
API
揭祕有狀態服務上 Kubernetes 的核心技術
2021-06-04
揭秘京東搜尋黑科技：一鍵觸達億萬商品
2024-02-06
如何利用BeautifulSoup選擇器抓取京東網商品資訊
2020-05-24
電商API分享：京東按關鍵字搜尋商品
2023-02-24
API
Python 基於 selenium 實現不同商城的商品價格差異分析系統
2022-03-19
Python
劉強東喊出技術轉型第二年，京東AI全景圖首次披露
2018-04-18
AI
京東技術中臺Flutter實踐之路（二）
2020-10-10
Flutter

京東商城背後AI技術揭祕（二）——基於商品要素的多模態商品摘要

導言

如表1所示，本文提出的帶有的多模態商品摘要模型，MMPG模型取得了比所有基於純文字的模型更好的結果，這證明了商品視覺資訊和商品要素資訊在商品摘要任務中起著重要的作用。

相關文章