隨著網際網路的高速發展帶來了資訊過載問題,給人們獲取和理解所需要的資訊帶來了障礙。因此產生許多精華概要式服務模式,例如羅振宇的60秒語音、快速講書、快速講電影等等,都是通過提煉核心資訊服務受眾。近年來AI技術取得了巨大的進步,尤其是在自然語言處理的文字生成領域,具有十分廣泛的產業化應用前景,不僅可以基於文字,還可以基於圖片等多模態資訊,凝練生成優美的文案。2020年OpenAI釋出的1750億引數的GPT-3,其寫作水平能夠與人類媲美。
京東發現好貨-西門子文案
京東發現好貨-海藍之謎文案
京東已在自身業務中大規模應用了文字生成技術,可以在短時間內為使用者撰寫精美的商品摘要文案,並根據使用者喜好推薦給使用者“種草”,京東言犀基於領域預訓練K-PLUG的商品文案生成模型已經覆蓋了京東的3000+個三級品類,人工稽核通過率90%以上,累計生成文案30億字,應用於京東發現好貨頻道、搭配購、AI直播帶貨等,商品摘要文案反映了商品最獨特的差異化價值,最大限度地促進使用者的購買,累計帶來超過3億元GMV。此外,言犀還可以擁有寫詩、寫春聯、書法創作等多種AI能力。
京東發現好貨-臥式冰箱文案
商品摘要文案的挑戰主要來源於三個方面,首先,資訊的來源豐富,包含標題、商品規格、產品海報等資訊;其次,需要處理多模態和結構化的資訊,包含文字和影像各類資訊,以及商品規格引數等結構化資訊;再次,AI系統必須要足夠智慧,能夠充分挖掘商品的賣點資訊,並在合適的時間,千人千面的推薦給恰當的使用者。
基於此,京東言犀開放了京東真實場景的脫敏資料,攜手NLPCC 2022舉辦多模態商品摘要挑戰賽。該任務旨在為一個指定商品生成一段凝練的文字摘要,給定的輸入包括商品詳細文字描述、商品知識圖譜和商品圖片。以下將介紹該任務的定義、資料集和評測方法。