美團基於知識圖譜的劇本殺標準化建設與應用

美團技術團隊發表於2021-11-01
劇本殺作為爆發式增長的新興業務,在商家上單、使用者選購、供需匹配等方面存在不足,供給標準化能為使用者、商家、平臺三方創造價值,助力業務增長。本文介紹了美團到店綜合業務資料團隊從0到1快速建設劇本殺供給標準化的過程及演算法方案。我們將美團到店綜合知識圖譜(GENE,GEneral NEeds net)覆蓋至劇本殺行業,構建劇本殺知識圖譜,實現供給標準化建設,包括劇本殺供給挖掘、標準劇本庫構建、供給與標準劇本關聯等環節,並在多個場景進行應用落地,希望給大家帶來一些幫助或啟發。

一、背景

劇本殺行業近年來呈爆發式增長態勢,然而由於劇本殺是新興行業,平臺已有的類目體系和產品形態,越來越難以滿足飛速增長的使用者和商戶需求,主要表現在下面三個方面:

  • 平臺類目缺失:平臺缺少專門的“劇本殺”類目,中心化流量入口的缺失,導致使用者決策路徑混亂,難以建立統一的使用者認知。
  • 使用者決策效率低:劇本殺的核心是劇本,由於缺乏標準的劇本庫,也未建立標準劇本和供給的關聯關係,導致劇本資訊展示和供給管理的規範化程度低,影響了使用者對劇本選擇決策的效率。
  • 商品上架繁瑣:商品資訊需要商戶人工一一錄入,沒有可用的標準模板用以資訊預填,導致商戶在平臺上架的劇本比例偏低,上架效率存在較大的提升空間。

為了解決上述痛點,業務需要進行劇本殺的供給標準化建設:首先建立“劇本殺”新類目,並完成相應的供給(包括商戶、商品、內容)的類目遷移。以此為基礎,以劇本為核心,搭建標準劇本庫,並關聯劇本殺供給,繼而建立劇本維度的資訊分發渠道、評價評分和榜單體系,滿足使用者“以劇本找店”的決策路徑。

值得指出的是,供給標準化是簡化使用者認知、幫助使用者決策、促進供需匹配的重要抓手,標準化程度的高低對平臺業務規模的大小有著決定性影響。具體到劇本殺行業,供給標準化建設是助力劇本殺業務持續增長的重要基礎,而標準劇本庫的搭建是劇本殺供給標準化的關鍵。由於基於規格如「城限」、背景如「古風」、題材如「情感」等劇本屬性無法確定具體的劇本,但劇本名稱如「舍離」則能起唯一標識的作用。因此,標準劇本庫的搭建,首先是標準劇本名稱的建設,其次是規格、背景、題材、難度、流派等標準劇本屬性的建設。

綜上,美團到店綜合業務資料團隊與業務同行,助力業務進行劇本殺的供給標準化建設。在建設過程中,涉及了劇本名稱、劇本屬性、類目、商戶、商品、內容等多種型別的實體,以及它們之間的多元化關係構建。而知識圖譜作為一種揭示實體及實體間關係的語義網路,用以解決該問題顯得尤為合適。特別地,我們已經構建了美團到店綜合知識圖譜(GENE,GEneral NEeds net),因此,我們基於GENE的構建經驗快速進行劇本殺這一新業務的知識圖譜構建,從0到1實現劇本殺標準化建設,從而改善供給管理和供需匹配,為使用者、商戶、平臺三方創造出更大的價值。

二、解決方案

我們構建的GENE,圍繞本地生活使用者的綜合性需求,以行業體系、需求物件、具象需求、場景要素和場景需求五個層次逐層遞進,覆蓋了玩樂、醫美、教育、親子、結婚等多個業務,體系設計和技術細節可見美團到店綜合知識圖譜相關的文章。劇本殺作為一項新興的美團到店綜合業務,體現了使用者在玩樂上的新需求,天然適配GENE的體系結構。因此,我們將GENE覆蓋至劇本殺新業務,沿用相同的思路來進行相應知識圖譜的構建,以實現相應的供給標準化。

基於知識圖譜來實現劇本殺標準化建設的關鍵,是以標準劇本為核心構建劇本殺知識圖譜。圖譜體系設計如圖1所示,具體地,首先在行業體系層進行劇本殺新類目的構建,挖掘劇本殺供給,並建立供給(包括商戶、商品、內容)與類目的從屬關係。在此基礎上,在需求物件層,進一步實現標準劇本名稱這一核心物件節點和其劇本屬性節點的挖掘以及關係構建,建立標準劇本庫,最後將標準劇本庫的每個標準劇本與供給和使用者建立關聯關係。此外,具象需求、場景要素、場景需求三層則實現了對使用者在劇本殺上的具象的服務需求和場景化需求的顯性表達,這部分由於與劇本殺供給標準化建設的聯絡不多,在這裡不做展開介紹。

圖 1

劇本殺知識圖譜中用於供給標準化部分的具體樣例如下圖2所示。其中,標準劇本名稱是核心節點,圍繞它的各類標準劇本屬性節點包括題材、規格、流派、難度、背景、別稱等。同時,標準劇本之間可能構建諸如“同系列”等型別的關係,比如「舍離」和「舍離2」。此外,標準劇本還會與商品、商戶、內容、使用者之間建立關聯關係。

我們基於劇本殺知識圖譜的這些節點和關係進行供給標準化,在圖譜構建過程中,包括了劇本殺供給挖掘標準劇本庫構建供給與標準劇本關聯三個主要步驟,下面對三個步驟的實現細節以及涉及的演算法進行介紹。

圖 2

三、實現方法

3.1 劇本殺供給挖掘

劇本殺作為新興的業務,已有的行業類目樹中並沒有相應的類目,無法直接根據類目獲取劇本殺的相關供給(包括商戶、商品和內容)。因此,我們需要首先進行劇本殺供給的挖掘,即從當前與劇本殺行業相近類目的供給中挖掘出劇本殺的相關供給。

對於劇本殺的商戶供給挖掘,需要判斷商戶是否提供劇本殺服務,判別依據包括了商戶名、商品名及商品詳情、商戶UGC三個來源的文字語料。這個本質上是一個多源資料的分類問題,然而由於缺乏標註的訓練樣本,我們沒有直接採用端到端的多源資料分類模型,而是依託業務輸入,採用無監督匹配和有監督擬合相結合的方式高效實現,具體的判別流程如下圖3所示,其中:

  • 無監督匹配:首先構造劇本殺相關的關鍵詞詞庫,分別在商戶名、商品名及商品詳情、商戶UGC三個來源的文字語料中進行精確匹配,並構建基於BERT[1]的通用語義漂移判別模型進行匹配結果過濾。最後根據業務規則基於各來源的匹配結果計算相應的匹配分數。
  • 有監督擬合:為了量化不同來源匹配分數對最終判別結果的影響,由運營先人工標註少量商戶分數,用以表徵商戶提供劇本殺服務的強弱。在此基礎上,我們構造了一個線性迴歸模型,擬合標註的商戶分數,獲取各來源的權重,從而實現對劇本殺商戶的精準挖掘。

圖 3

採用上述方式,實現了桌面和實景兩種劇本殺商戶的挖掘,準確率和召回率均達到了要求。基於劇本殺商戶的挖掘結果,能夠進一步對商品進行挖掘,並建立劇本殺類目,從而為後續劇本殺知識圖譜構建及標準化建設打好了資料基礎。

3.2 標準劇本庫構建

標準劇本作為整個劇本殺知識圖譜的核心,在劇本殺供給標準化建設中扮演著重要的角色。我們基於劇本殺商品相似聚合的方式,結合人工稽核來挖掘標準劇本,並從相關發行方獲取劇本授權,從而構建標準劇本庫。標準劇本由兩部分構成,一個是標準劇本名稱,另一個是標準劇本屬性。因此,標準劇本庫構建也分為標準劇本名稱的挖掘和標準劇本屬性的挖掘兩個部分。

3.2.1 標準劇本名稱的挖掘

我們根據劇本殺商品的特點,先後採用了規則聚合、語義聚合和多模態聚合三種方法進行挖掘迭代,從數十萬劇本殺商品的名稱中聚合得到數千標準劇本名稱。下面分別對三種聚合方法進行介紹。

規則聚合

同一個劇本殺商品在不同商戶的命名往往不同,存在較多的不規範和個性化。一方面,同一個劇本名稱本身就可以有多種叫法,例如「舍離」、「舍離壹」、「舍離1」就是同一個劇本;另一方面,劇本殺商品名除了包含劇本名稱外,商家很多時候也會加入劇本的規格和題材等屬性資訊以及吸引使用者的描述性文字,例如「《舍離》情感本」。所以我們首先考慮劇本殺商品的命名特點,設計相應的清洗策略對劇本殺商品名稱進行清洗後再聚合。

圖 4

我們除了梳理常見的非劇本詞,構建詞庫進行規則過濾外,也嘗試將其轉換為命名實體識別問題[2],採用序列標註對字元進行“是劇本名”與“不是劇本名”兩個類別的區分。對於清洗後的劇本殺商品名稱,則通過基於最長公共子序列(LCS)的相似度計算規則,結合閾值篩選對其進行聚合,例如「舍離」、「舍離壹」、「舍離1」最後均聚在一起。整個流程如上圖4所示,採用規則聚合的方式,能夠在建設初期幫助業務快速對劇本殺商品名稱進行聚合。

語義聚合

規則聚合的方式雖然簡單好用,但由於劇本名稱的多樣性和複雜性,我們發現聚合結果中仍然存在一些問題:1)不屬於同一個劇本的商品被聚合,例如「舍離」和「舍離2」是同一個系列的兩個不同劇本,卻被聚合在一起。2)屬於同一個劇本的商品沒有聚合,例如,商品名使用劇本的簡稱縮寫(「唐人街名偵探和貓」和「唐探貓」)或出現錯別字(「弗洛伊德之錨」和「佛洛依德之錨」)等情況時則難以規則聚合。

針對這上述這兩種問題,我們進一步考慮使用商品名稱語義匹配的方式,從文字語義相同的角度來進行聚合。常用的文字語義匹配模型分為互動式和雙塔式兩種型別。互動式是把兩段文字一起輸入進編碼器,在編碼的過程中讓其相互交換資訊後再進行判別;雙塔式模型是用一個編碼器分別給兩個文字編碼出向量,然後基於兩個向量進行判別。

由於商品數量眾多,採用互動式的方法需要將商品名稱兩兩組合後再進行模型預測,效率較為低下,為此,我們採用雙塔式的方法來實現,以Sentence-BERT[3]的模型結構為基礎,將兩個商品名稱文字分別通過BERT提取向量後,再使用餘弦距離來衡量兩者的相似度,完整結構如下圖5所示:

圖 5

在訓練模型的過程中,我們首先基於規則聚合的結果,通過同聚簇內生成正例和跨聚簇交叉生成負例的方式,構造粗粒度的訓練樣本,完成初版模型的訓練。在此基礎上,進一步結合主動學習,對樣本資料進行完善。此外,我們還根據上文提到的規則聚合出現的兩種問題,針對性的批量生成樣本。具體地,通過在商品名稱後新增同系列編號,以及使用錯字、別字和繁體字替換等方式來實現樣本的自動構造。

多模態聚合

通過語義聚合的方式實現了從商品名稱文字語義層面的同義聚合,然而我們通過對聚合結果再分析後發現還存在一些問題:兩個商品屬於同一個劇本,但僅從商品名稱的角度是無法判別。例如,「舍離2」和「斷念」從語義的角度無法聚合,但是它們本質上是一個劇本「舍離2·斷念」。雖然這兩個商品的名稱各異,但是它們的影像往往是相同或相似的,為此,我們考慮引入商品的影像資訊來進行輔助聚合。

一個簡單的方法是,使用CV領域成熟的預訓練模型作為影像編碼器進行特徵提取,直接計算兩個商品的影像相似度。為了統一商品影像相似度計算和商品名稱語義匹配的結果,我們嘗試構建一個劇本殺商品的多模態匹配模型,充分利用商品名稱和影像資訊來進行匹配。模型沿用語義聚合中使用的雙塔式結構,整體結構如下圖6所示:

圖 6

在多模態匹配模型中,劇本殺商品的名稱和影像分別通過文字編碼器和影像編碼器得到對應的向量表示後,再進行拼接作為最終的商品向量,最後使用餘弦相似度來衡量商品之間的相似度。其中:

  • 文字編碼器:使用文字預訓練模型BERT[1]作為文字編碼器,將輸出平均池化後作為文字的向量表示。
  • 影像編碼器:使用影像預訓練模型EfficientNet[4]作為影像編碼器,提取網路最後一層輸出作為影像的向量表示。

在訓練模型的過程中,文字編碼器會進行Finetune,而影像編碼器則固定引數,不參與訓練。對於訓練樣本構建,我們以語義聚合的結果為基礎,以商品影像相似度來圈定人工標註樣本的範圍。具體地,對於同聚簇內商品影像相似度高的直接生成正例,跨聚簇交叉的商品影像相似度低的直接生成負例,而對於剩餘的樣本對則交由人工進行標註確定。通過多模態聚合,彌補了僅使用文字匹配的不足,與其相比準確率提升了5%,進一步提升了標準劇本的挖掘效果。

3.2.2 標準劇本屬性的挖掘

標準劇本的屬性包括了劇本的背景、規格、流派、題材、難度等十餘個維度。由於商戶在劇本殺商品上單的時候會錄入商品的這些屬性值,所以對於標準劇本屬性的挖掘,本質上是對該標準劇本對應的所有聚合商品的屬性的挖掘。

在實際過程中,我們通過投票統計的方式來進行挖掘,即對於標準劇本的某個屬性,通過對應的聚合商品在該屬性上的屬性值進行投票,選擇投票最高的屬性值,作為該標準劇本的候選屬性值,最後由人工稽核確認。此外,在標準劇本名稱挖掘的過程中,我們發現同一個劇本的叫法多種多樣,為了對標準劇本能有更好的描述,還進一步為標準劇本增加了一個別稱的屬性,通過對標準劇本對應的所有聚合商品的名稱進行清洗和去重來獲取。

3.3 供給與標準劇本關聯

在完成標準劇本庫構建後,還需要建立劇本殺的商品、商戶和內容三種供給,與標準劇本的關聯關係,從而使劇本殺的供給實現標準化。由於通過商品和標準劇本的關聯關係,可以直接獲取該商品對應商戶和標準劇本的關係,所以我們只需要對商品和內容進行標準劇本關聯。

3.3.1 商品關聯

在3.2節中,我們通過聚合存量劇本殺商品的方式來進行標準劇本的挖掘,在這個過程中其實已經構建了存量商品和標準劇本的關聯關係。對於後續新增加的商品,我們還需要將其和標準劇本進行匹配,以建立兩者之間的關聯關係。而對於與標準劇本無法關聯的商品,我們則自動進行標準劇本名稱和屬性的挖掘,經由人工稽核後再加入標準劇本庫。

整個商品關聯流程如下圖7所示,首先對商品名稱進行清洗再進行匹配關聯。在匹配環節,我們基於商品和標準劇本的名稱及影像的多模態資訊,對兩者進行匹配判別。

圖 7

與商品之間的匹配不同,商品與標準劇本的關聯不需要保持匹配的對稱性。為了保證關聯的效果,我們在3.2.1節的多模態匹配模型的結構基礎上進行修改,將商品和標準劇本的向量拼接後通過全連線層和softmax層計算兩者關聯的概率。訓練樣本則直接根據存量商品和標準劇本的關聯關係構造。通過商品關聯,我們實現了絕大部分劇本殺商品的標準化。

3.3.2 內容關聯

對於劇本殺內容關聯標準劇本,主要針對使用者產生的內容(UGC,例如使用者評價)這一型別的內容和標準劇本的關聯。由於一段UGC文字通常包含多個句子,且其中只有部分句子會提及標準劇本相關資訊,所以我們將UGC與標準劇本的匹配,細化為其子句粒度的匹配,同時出於效率和效果的平衡的考慮,進一步將匹配過程分為了召回和排序兩個階段,如下圖8所示:

圖 8

在召回階段,將UGC文字進行子句拆分,並根據標準劇本名稱及其別稱,在子句集合中進行精確匹配,對於匹配中的子句則將進入到排序階段進行精細化的關聯關係判別。

在排序階段,將關聯關係判別轉換為一個Aspect-based的分類問題,參考屬性級情感分類的做法[5],構建基於BERT句間關係分類的匹配模型,將實際命中UGC子句的標準劇本別稱和對應的UGC子句用[SEP]相連後輸入,通過在BERT後增加全連線層和softmax層來實現是否關聯的二分類,最後對模型輸出的分類概率進行閾值篩選,獲取UGC關聯的標準劇本。

與上文中涉及的模型訓練不同,UGC和標準劇本的匹配模型無法快速獲取大量訓練樣本。考慮到訓練樣本的缺乏,所以首先通過人工少量標註數百個樣本,在此基礎上,除了採用主動學習外,我們還嘗試對比學習,基於Regularized Dropout[6]方法,對模型兩次Dropout的輸出進行正則約束。最終在訓練樣本不到1K的情況下,UGC關聯標準劇本的準確率達到上線要求,每個標準劇本關聯的UGC數量也得到了大幅提升。

四、應用實踐

當前劇本殺知識圖譜,以數千標準劇本為核心,關聯百萬供給。劇本殺供給標準化建設的結果已在美團多個業務場景上進行了初步的應用實踐。下面介紹具體的應用方式和應用效果。

4.1 類目構建

通過劇本殺供給挖掘,幫助業務識別出劇本殺商戶,從而助力劇本殺新類目和相應劇本殺列表頁的構建。劇本殺類目遷移、休閒娛樂頻道頁的劇本殺入口、劇本殺列表頁均已上線,其中,頻道頁劇本殺ICON固定第三行首位,提供了中心化流量入口,有助於建立統一的使用者認知。上線示例如圖9所示((a)休閒娛樂頻道頁劇本殺入口,(b)劇本殺列表頁)。

圖 9

4.2 個性化推薦

劇本殺知識圖譜包含的標準劇本及屬性節點,以及其與供給和使用者的關聯關係,可應用於劇本殺各頁面的推薦位。一方面應用於劇本列表頁熱門劇本推薦(圖10(a)),另一方面還應用於劇本詳情頁的商品在拼場次推薦(圖10(b)左)、可玩門店推薦(圖10(b)左)和相關劇本推薦模組(圖10(b)右)。這些推薦位的應用,幫助培養了使用者在平臺找劇本的心智,優化了使用者認知和選購體驗,提高了使用者和供給的匹配效率。

圖10

以劇本列表頁的熱門劇本推薦模組為例,劇本殺知識圖譜包含的節點和關係除了可以直接用於劇本的召回,還可以進一步在精排階段進行應用。在精排中,我們基於劇本殺知識圖譜,結合使用者行為,參考Deep Interest Network(DIN)[7]模型結構,嘗試對使用者訪問劇本的序列和訪問商品的序列進行建模,構建雙通道DIN模型,深度刻畫使用者興趣,實現劇本的個性化分發。其中商品訪問序列部分,通過商品與標準劇本的關聯關係將其轉為為劇本序列,與候選劇本採用Attention方式進行建模,具體模型結構如下圖11所示:

圖 11

4.3 資訊外露和篩選

基於劇本殺知識圖譜中的節點和關係,在劇本殺列表頁和在劇本列表頁增加相關標籤篩選項,並外露劇本的屬性和關聯的供給資訊,相關應用如下圖12所示。這些標籤篩選項和資訊的外露,為使用者提供了規範的資訊展示,降低了使用者決策成本,更加方便了使用者選店和選劇本。

圖 12

4.4 評分和榜單

在劇本詳情頁,內容和標準劇本的關聯關係參與到劇本的評分計算中(圖13(a))。在此基礎上,基於劇本維度,形成經典必玩和近期熱門的劇本榜單,如圖13(b)所示,從而為使用者的劇本選擇決策提供了更多的幫助。

圖 13

五、總結展望

面對劇本殺這一新興行業,我們快速響應業務,以標準劇本為核心節點,結合行業特點,通過劇本殺供給挖掘、標準劇本庫構建、供給與標準劇本關聯,構建相應的知識圖譜,從0到1逐步推進劇本殺的供給標準化建設,力求以簡單而有效的方法來解決劇本殺業務的問題。

目前劇本殺知識圖譜已在劇本殺多個業務場景中取得應用成果,賦能劇本殺業務持續增長,顯著提升了使用者體驗。在未來的工作中,我們將不斷進行優化和探索:

  • 標準劇本庫的持續完善:優化標準劇本名稱和屬性以及相應的供給關聯關係,保證標準劇本庫的質與量俱佳,並嘗試引入外部的知識補充當前的標準化結果。
  • 劇本殺場景化:當前劇本殺知識圖譜主要以“劇本”這類使用者的具象需求物件為主,後續將深入挖掘使用者的場景化需求,探索劇本殺和其他行業的聯動,更好的助力劇本殺行業的發展。
  • 更多的應用探索:將圖譜資料應用於搜尋等模組,在更多的應用場景中提升供給匹配效率,從而創造出更大的價值。

參考文獻

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[2] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J]. arXiv preprint arXiv:1603.01360, 2016.

[3] Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.

[4] Tan M, Le Q. EfficientNet: Rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.

[5] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.

[6] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.

[7] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1059-1068.

作者簡介

李翔、陳煥、志華、曉陽、王奇等,均來自美團到店平臺技術部到綜業務資料團隊。

招聘資訊

美團到店平臺技術部-到綜業務資料團隊,長期招聘演算法(自然語言處理/推薦演算法)、資料倉儲、資料科學、系統開發等崗位同學,座標上海。歡迎感興趣的同學傳送簡歷至:licong.yu@meituan.com

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章