京東商城背後AI技術揭秘(一)——基於關鍵詞自動生成摘要
導言
過去幾十年間,人類的計算能力獲得了巨大提升;隨著資料不斷積累,演算法日益先進,我們已經步入了人工智慧時代。確實,人工智慧概念很難理解,技術更是了不起,背後的資料和演算法非常龐大複雜。很多人都在疑惑,現在或未來AI將會有哪些實際應用呢?
其實,關於AI的實際應用以及所帶來的商業價值並沒有那麼的“玄幻”,很多時候就已經在我們的身邊。接下來,【AI論文解讀】專欄將會透過相關AI論文的解讀,由深入淺地為大家揭秘,AI技術是如何對電商領域進行賦能,以及相關的落地與實踐。
人工智慧技術在電商領域,有著豐富的應用場景。應用場景是資料入口,資料透過技術得到提煉,反過來又作用於技術,二者相輔相成。
京東基於自然語言理解與知識圖譜技術,開發了商品營銷內容AI寫作服務。並將此項技術應用到了京東商城【發現好貨】頻道中。
京東【發現好貨】頻道
透過AI創作的數十萬商品營銷圖文素材,不僅填補了商品更新與達人寫作內容更新之間的巨大缺口,也提升了內容頻道的內容豐富性。
同時,AI生成內容在曝光點選率、進商詳轉化率等方面其實都表現出了優於人工創作營銷的內容。
接下來讓我們讓我透過解讀入選 AAAI 2020 的論文來一起來看看,如何透過AI來實現針對不同群體採用不同營銷策略及不同風格的營銷文案從而提高營銷轉化率的。
自動文字摘要(簡稱“自動文摘”)是自然語言處理領域中的一個傳統任務,其提出於 20 世紀 50 年代。自動文摘任務的目標是對於給定的文字,獲得一段包含了其中最重要資訊的簡化文字。常用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘透過提取給定文字中已存在的關鍵詞、短語或句子組成摘要;生成式自動文摘透過對給定文字建立抽象的語意表示,利用自然語言生成技術,生成摘要。
本文所介紹的是基於關鍵詞指導的生成式句子摘要方法,該方法融合了抽取式自動文摘和生成式自動文摘,在Gigaword句子摘要資料集上與對比模型相比,取得了更好的效能。
論文連結: http:// box.jd.com/sharedInfo/B 2234BB08E365EEC
生成式句子摘要(Abstractive Sentence Summarization)任務的輸入是一個較長的句子,輸出是該輸入句子的簡化短句。
我們注意到,輸入句子中的一些重要詞語(即關鍵詞)為摘要的生成提供了指導線索。另一方面,當人們在為輸入句子創作摘要時,也往往會先找出輸入句子中的關鍵詞,然後組織語言將這些關鍵詞串接起來。最終,生成內容不僅會涵蓋這些關鍵詞,還會確保其流暢性和語法正確性。我們認為,相較於純粹的抽取式自動文摘和生成式自動文摘,基於關鍵詞指導的生成式自動文摘更接近於人們創作摘要時的習慣。
圖1:輸入句和參考摘要之間的重疊關鍵詞(用紅色標記)涵蓋了輸入句的重要資訊,我們可以根據從輸入語句中提取的關鍵字生成摘要
我們舉一個簡單的句子摘要的例子。如圖1所示,我們可以大致將輸入句子和參考摘要的重疊的詞(停用詞除外)作為關鍵詞,這些重疊的詞語覆蓋了輸入句子的要點。例如,我們透過關鍵詞“世界各國領導人”“關閉”和“切爾諾貝利” ,可以獲取輸入句子的主旨資訊,即“世界各國領導人呼籲關閉切爾諾貝利”,這與實際的參考摘要 “世界各國領導人敦促支援切爾諾貝利核電站關閉計劃”是相吻合的。這種現象在句子摘要任務中很常見:在Gigaword句子摘要資料集上,參考摘要中的詞語超過半數會出現在輸入句子中。
句子摘要任務的輸入為一個較長的句子,輸出是一個簡短的文字摘要。我們的動機是,輸入文字中的關鍵詞可以為自動文摘系統提供重要的指導資訊。首先,我們將輸入文字和參考摘要之間重疊的詞(停用詞除外)作為Ground-Truth關鍵詞,透過多工學習的方式,共享同一個編碼器對輸入文字進行編碼,訓練關鍵詞提取模型和摘要生成模型,其中關鍵詞提取模型是基於編碼器隱層狀態的序列標註模型,摘要生成模型是基於關鍵詞指導的端到端模型。關鍵詞提取模型和摘要生成模型均訓練收斂後,我們利用訓練好的關鍵詞提取模型對訓練集中的文字抽取關鍵詞,利用抽取到的關鍵詞對摘要生成模型進行微調。測試時,我們先利用關鍵詞提取模型對測試集中的文字抽取關鍵詞,最終利用抽取到的關鍵詞和原始測試文字生成摘要。
1、多工學習
文字摘要任務和關鍵詞提取任務在某種意義上非常相似,都是為了提取輸入文字中的關鍵資訊。不同點在於其輸出的形式:文字摘要任務輸出的是一段完整的文字,而關鍵詞提取任務輸出的是關鍵詞的集合。我們認為這兩個任務均需要編碼器能夠識別出輸入文字中的重要資訊的能力。因此,我們利用多工學習框架,共享這兩個任務編碼器,提升編碼器的效能。
2、基於關鍵詞指導的摘要生成模型
我們受Zhou等人工作[1]的啟發,提出了一種基於關鍵詞指導的選擇性編碼。具體來說,由於關鍵詞含有較為重要的資訊,透過關鍵詞的指導,我們構建一個選擇門網路,其對輸入文字的隱層語義資訊進行二次編碼,構造出一個新的隱層。基於這個新的隱層進行後續的解碼。
我們的解碼器基於Pointer-Generator網路[2],即融合了複製機制的端到端模型。對於Generator模組,我們提出直連、門融合和層次化融合的方式對原始輸入文字和關鍵詞的上下文資訊進行融合;對於Pointer模組,我們的模型可以選擇性地將原始輸入和關鍵詞中的文字複製到輸出摘要中。
1、資料集
在本次實驗中,我們選擇在Gigaword資料集上進行實驗,該資料集包含約380萬個訓練句子摘要對。我們使用了8000對作為驗證集,2000對作為測試集。
2、實驗結果
表1顯示了我們提出的模型比沒有關鍵詞指導的模型表現更好。我們測試了不同的選擇性編碼機制,分別是輸入文字的自選擇,關鍵詞選擇和互選擇,實驗結果顯示互選擇的效果最佳;對於Generator模組,我們發現層次化融合的方式要優於其他兩種融合方式;我們的雙向Pointer模組比原始的僅能從輸入文字中複製的模型表現更好。
表1
本文致力於生成式句子摘要的任務,即如何將一個長句子轉換成一個簡短的摘要。我們提出的模型可以利用關鍵詞作為指導,生成更加優質的摘要,獲得了比對比模型更好的效果。
1)透過採用了多工學習框架來提取關鍵詞和生成摘要;
2)透過基於關鍵字的選擇性編碼策略,在編碼過程中獲取重要的資訊;
3)透過雙重注意力機制,動態地融合了原始輸入句子和關鍵詞的資訊;
4)透過雙重複制機制,將原始輸入句子和關鍵詞中的單詞複製到輸出摘要中。
在標準句子摘要資料集上,我們驗證了關鍵詞對句子摘要任務的有效性。
註釋:
[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.
[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.
在上一篇專欄文章中,我們為大家詳細介紹了京東商城是如何在現有基礎上進行更進一步的技術探究與創新,從而有效提升電商的營銷轉化率的。詳情可點選下方進行檢視???
京 東 AI 研 究 院
京東AI研究院專注於持續性的演算法創新,多數研究將由京東實際的業務場景需求為驅動。研究院的聚焦領域為:計算機視覺、自然語言理解、對話、語音、語義、機器學習等實驗室,已逐步在北京、南京、成都、矽谷等全球各地設立職場。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69912185/viewspace-2684264/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 京東商城背後AI技術揭祕(一)——基於關鍵詞導向的生成式句子摘要AI
- 京東商城背後AI技術揭秘(二)——基於商品要素的多模態商品摘要AI
- 京東商城背後AI技術揭祕(二)——基於商品要素的多模態商品摘要AI
- 技術沙龍|京東雲端到端多媒體關鍵技術揭秘
- 2692億背後,京東智聯雲以技術守護京東618,助力消費再創新高
- 技術沙龍|京東雲DevOps自動化運維技術實踐dev運維
- 揭秘京東搜尋黑科技:一鍵觸達億萬商品
- 文字自動摘要:基於TextRank的中文新聞摘要
- 京東研究院:2022年度京東消費趨勢關鍵詞(附下載)
- 無監督文字自動摘要野生技術
- 語音技術——關鍵詞搜尋
- 如何自動生成文字摘要
- 技術揭秘:yargs-parser漏洞背後的修復之道
- 滴滴全民拼車日背後的運維技術揭秘運維
- OpenAI Sora 關鍵技術詳解:揭秘時空碎片 (Spacetime Patches) 技術OpenAISora
- 使用Python呼叫API介面獲取京東關鍵詞詳情資料PythonAPI
- AI驅動的京東端到端補貨技術建設實踐AI
- 基於JavaScript的關鍵詞過濾示例JavaScript
- 沙龍報名 | 京東雲DevOps——自動化運維技術實踐dev運維
- AI主播“小可”亮相,分享京東11.11全方位技術保障AI
- 網站關鍵詞堆砌後,處理關鍵詞堆砌方法網站
- 京東API介面技術大揭秘:讓你輕鬆駕馭電商開發API
- 京東重構技術版圖
- 抵禦網路攻擊的背後——成熟創新的技術是關鍵
- 華為棄用京東方的背後,國產柔性屏行業必須靠技術突圍行業
- AI繪畫怎麼寫關鍵詞?AI繪畫高畫質桌布關鍵詞分享AI
- 亞洲唯一!京東榮獲2024年度Gartner供應鏈技術創新獎背後的創新探索
- AI時代的京東數科:用六年時間實現關鍵一躍AI
- 容器技術的未來——京東雲技術專訪
- 天貓雙11背後的技術力量:一場全球最大規模的AI總動員AI
- 京東物流獨立背後真相:要感謝好基友沃爾瑪AM
- 自動駕駛:兩種技術路線背後的產業思維自動駕駛產業
- 京東APP百億級商品與車關係資料檢索實踐 | 京東雲技術團隊APP
- 網路安全,東京奧運會背後的戰場!
- 論文太多讀不完?AI化身閱讀小助手,可一鍵生成文章摘要!AI
- 劉強東喊出技術轉型第二年,京東AI全景圖首次披露AI
- Minstrel自動生成結構化提示,讓AI為AI寫提示詞的多代理提示生成框架AI框架
- ChatGPT出圈背後,生成式AI的春天到了?ChatGPTAI