導讀:從粗放式流量覆蓋到精細化使用者時長提升的轉變,以及構建個性化、場景化文案創意的生成,迫切需要一套自動化、系統化的智慧內容生成解決方案,來緩解人工創作下的耗時長、成本高等問題。本文將從行業背景出發,全面介紹下招商加盟行業下內容場景的特點,最後重點介紹加盟星在招商加盟行業下探索的 AI 創作解決方案。
全文5103字,預計閱讀時間16分鐘
在百度搜尋引擎中,每天有幾百萬的流量是招商加盟相關的,但招商加盟行業的資訊魚龍混雜,仿冒、虛假的資訊不但給使用者造成了困擾,甚至有可能讓人蒙受金錢上的損失。目前加盟服務平臺眾多,眾多『三快』平臺透過截流品牌方的流量,誘導使用者點選,對使用者和加盟方都是嚴重的傷害。加盟星是百度招商加盟行業的解決方案,透過對加盟品牌的資質認證達到去偽存真的目的,保證加盟資訊的真實可靠。因此,加盟星對使用者加盟需求的覆蓋滿足程度,決定了加盟星發揮作用的上限,因此,擴大加盟星自有認證內容能夠更大程度的驅逐『劣幣』市場流量。
一、背景
招商加盟行業下,使用者對加盟需求的認知可以歸類為三種:
- 第一類是問答流程類,是使用者對特定品牌加盟的加盟檢索,屬於品牌需求,希望得到關於特定品牌的費用、流程以及加盟條件的相關資訊,這類的搜尋需求和品牌方提供的資訊相關,存在一定的結構性和通用性;
- 第二類是優劣對比類需求,是品類需求,是對某個行業上加盟資訊的查詢,滿足這部分使用者的需求需要加盟星具有一定規模的物料和對物料的認知;
- 第三類是無特定行業或品牌下的泛意圖需求,存在『加盟』『賺錢』的需求,但自己也沒有明確的方向。
上述三種流量分佈並不均衡,滿足上述每種檢索需求的難度也不一樣。同時,隨著加盟星的發展,每種檢索需求的優先順序也是在不斷變化的,因此需要配套的內容覆蓋滿足機制。
在建設內容覆蓋機制的過程中,我們首先從流量的頭尾分佈來分析,著名品牌的檢索流量佔總體的60%以上,對應的品牌數量只有幾百,而剩餘長尾的流量涵蓋的品牌數量卻是數萬的量級。在對頭部品牌的內容覆蓋中,量級是比較有限的,可以透過定向寫作、定向抓取等方式,保證高質量的情況下進行有序的提升覆蓋率。對於非頭部的流量,則很難透過上述方式達到有效的提升。非頭部流量具有不確定性,以月度為週期統計,相鄰兩個月份的非頭部流量重疊率只有60%,這就導致了定向人工寫作或抓取的方式,往往帶來的效果不太理想。因此,希望透過 AI 創作的方式,自動、批次的生成內容,以便於能夠快速、高效的提升內容覆蓋率。因此在加盟星業務中,進行了 AI 創作的探索和建設,來滿足加盟星內容覆蓋的提升。
二、整體設計
整體流程上,我們可以看做是三個模組的序列:流量分析是一個離線模組,提供對近期搜尋流量的拆解分析,指導後續內容生成的方向;內容生成模組透過對不同的生成需求,採用不同的方法產出對應的內容,最終資料模組將生成的資料進行質量校驗、建庫以及新增到檢索邏輯中,進行最終的展現。
系統實現上,分為離線部分和線上部分,離線部分包括流量分析、生成層和資料校驗層;線上部分是基於業務邏輯對內容的展現,不作為本文的重點介紹內容。
- 流量分析是離線模組的起點,針對搜尋流量、日誌記錄資訊等資料,藉助 query 分析等服務,實現對當前流量的有效覆蓋分析,進而指導生成模組的內容生成;
- 生成層分為 AI 生成和定向生成,其中定向生成包括人工寫作以及定向引流,主要適用於小批次、高精準的頭部流量的覆蓋,AI 創作包含四種不同的方法,是對不同內容生成需求的滿足;
- 資料校驗層是對內容質量的把控,透過非法內容過濾、質量校驗、重合度計算以及人工干預等手段,保證落庫資料的質量,避免在檢索結果上出現違規不合適的內容。
資料層是對生成的內容資料、使用者的檢索資料以及分析挖掘的結果資料進行儲存,在資料層也需要完成對資料完整性的校驗、建庫和索引的生成;檢索邏輯實現對自有內容和生成內容的檢索,在該層能夠實現對自有內容和生成內容的展現權重、順序、PV 等的調整控制;最上層是對內容的展現,包括自建阿拉丁卡片、SEO 流量以及廣告流量等。下面就主要流程的探索,分別展開描述。
2.1 流量分析模組
檢索日誌:是透過行業流量判別模型,得到的一段時間(周或者月粒度)內使用者的檢索流量。其中包含我們已經覆蓋的流量和未覆蓋的流量,即屬於行業流量但我們未能在任何一個渠道返回結果的流量,這部分流量是我們要提升覆蓋的目標。
過濾:使用者的輸入可能包含了一些不合適的內容,例如暴力、黃色或者反動的資訊,同時,在業務發展的不同階段關注的流量重點也是不同的,因此需要我們對檢索日誌中包含負面情緒的流量以及不符合業務當前發展重心的流量剔除掉。
query分析:我們拿到使用者輸入的 query 後,需要理解使用者的搜尋需求是如何的,比如感興趣的行業或品牌、投資水平、加盟意圖的強度等,透過加盟星自建的 query 分析服務實現對 query 的意圖、型別、層級、實體、價格、地域等資訊的解析,產出對所有 query 的解析結果,助力後續的模組。
外部/競品:指的是和業務同型別、同方向的外部業務網站,關注外部競品資訊,能夠及時的瞭解自身業務的不足和行業的發展,我們在這裡是關注外部競品網站的內容覆蓋情況。
覆蓋分析:透過 query 分析模組對近期使用者的檢索需求的拆解,結合站內已有的物料以及展現情況,進行當前狀態下的流量覆蓋分析,同時將當前流量和外部競品結合,分析外部競品的覆蓋情況,如果外部競品覆蓋情況優於目前站內,應該觸發抓取模組,獲取外部的內容原料並寫庫沉澱;否則直接將覆蓋分析結果輸出到下游。
抓取模組:當需要增加定向內容的時候,觸發該模組來獲取指定的外部/競品內容,當做生成模組的輸入資訊。
2.2 內容生成模組
我們透過對歷史資料的分析,瞭解到當前站內對使用者搜尋需求的滿足情況後,可以開始著手內容的生成。在該步驟中,整體流程可以看做是接受傳入的生成需求,然後根據不用的生成內容需求呼叫不用的生成介面,產出對應的內容然後透過校驗模組校驗後,決定給是否重新生成還是可以落庫。
內容生成上,我們將其分為了人工和 AI 兩種型別,其中人工定向生成內容主要是滿足頭部流量以及行程一種使用者習慣和行業效應,AI 生成內容能夠覆蓋大多數的搜尋流量,也是為了彌補人工定向生成中週期長、擴量慢等問題。
其中人工定向生成內容包括大咖說、加盟日誌、創業者說、探店影片、輪播影片等內容,從文章到影片,形成對專案的全方位內容覆蓋,也能夠提升使用者對加盟星內容覆蓋維度的認知,產生積極的效應。但人工定向也存在比較嚴重的問題:速度慢、週期長、無法批次化等。這些問題的存在促進了我們去積極的探索 AI 創作內容的可行性。
不同的使用者具有不同的加盟需求,在加盟意圖、強度或者方向(行業)上具有多樣性,因此,我們定義了四種不同的生成方法:模板式、摘要式、改寫式以及自由生成。不同的生成方法在準確度、覆蓋面、目標流量、實現方式上存在差異,以滿足使用者不同場景下的搜尋需求。
2.2.1 模板式生成
透過對使用者搜尋流量的分析,對於加盟流程、加盟費用、加盟城市等具備固定答案的搜尋需求,我們可以制定模板,以完形填空的方式將特定的專案(品牌)資料填充進去,形成針對使用者搜尋需求的內容覆蓋。
在模板式生成的建設過程中,考慮到影片是當下比較受歡迎的內容形式,構建了基於模板的影片生成介面,能夠根據傳入的文字、圖文,利用已有的模板自動生成對應的影片。其中音訊的生成支援外部傳入或者文字轉音訊,如果只有文字的情況下,會進行文字轉圖片的操作,當傳入了圖片的情況下,會根據音訊的節拍調整圖片的展示時長,展示 demo 如下:
我們可以看出,這種方式利用了已有的資訊生成特定格式的內容,足夠迅速和準確,針對使用者加盟流程、加盟優勢、加盟費用等特定搜尋需求,具有一定的滿足性。但是,侷限性也比較大,嚴重依賴專案資料的完備性。因此,一定程度上引入外部的有效資料是很有必要的,基於引入的外部資料,為了避免不必要的問題,我們建設以下的生成介面:摘要式生成和改寫式生成。
2.2.2 改寫式和摘要式生成
自動摘要是一種 NLG 任務,可以分為生成式摘要和抽取式摘要,前者透過文件內容,透過模型生成對文章的自然語言描述,而後者是從原文中提取現成的重要句子作為摘要。兩者各有利弊,建設難度和使用階段也不同。站內建設初期缺少大量文字和對應的摘要資料,可以透過抽取式摘要的方法,例如 MMR、TextRank 或者多種方法的加權組合,達到摘要生成的目的,隨著資料的積累,有了足夠的訓練資料時,可以進行摘要生成式模型的訓練。但抽取式的結果也是可以當做輔助資訊輸入模型,指導模型輸出的內容儘量通暢。
文字改寫,也叫做文字複述,透過對搜尋資料、同義詞或者模型等,找到不同表述的近義表達,對文字進行同樣語義下的再次表述。在此處,我們把改寫看做是一種翻譯行為,透過原始語句和改寫語句對當做訓練資料,進行模型的訓練,但目前生成質量還有進一步提升。
改寫式或者摘要式都可以看做是一種翻譯任務,透過原始 source 語句,獲取target 語句輸出的模式,是一種標準的 Seq2Seq 正規化,因此在建設過程中,可以考慮基於 Transformer 的預訓練模型。改寫式或者摘要式需要依賴一個原始文字內容的輸入,是針對已有內容的生成,當外部資料也無法滿足的時候,就需要自由式生成方法來解決了。
2.2.3 自由式生成
文字的自由生成是針對長尾流量的有效解決方案:沒有外部有效資料可以參考,又存在使用者的搜尋需求需要滿足。目前主流的的文字自由生成(預訓練)模型包括 ERNIE 2.0/3.0、GPT-2/3以及基於中文 CPM等。
在預訓練模型的基礎上,我們透過對大量招商加盟行業資訊文字語料的微調,獲得專屬招商加盟行業的生成模型,對使用者感興趣的搜尋需求進行自由的生成,從而在一定程度滿足使用者的搜尋意圖。
但目前來看,自由生成的文字在超過一定長度後,通暢性、文章價值、困惑度等指標都會急劇下降,在短文字上表現比較符合預期。對於長文字的生成,後續可以參照 RNN 的方式,每一次都生成較短的文字,對生成結果進行校驗後,迭代的進行生成,這是後續可能探索的一種方式,目前來看,只依賴模型的結果而缺少先驗知識的情況下,生成的內容可用性比較低,這也是將來重點探索的方向。
2.3 資料校驗模組
透過 AI 創作生成的文章,在內容上存在一定的不可控性,如果直接推送建庫可能帶來一些問題,例如黃反暴等負面情緒的言論、重複內容的問題、內容質量問題等等,在資料校驗模組中,透過人工或自動的方式,自動評測上,我們可以採用的線下點選率預估的方式,對比生成文案與已有文案在預估點選率上的差異性,從而得到生成文案在業務上帶來的價值,另外基於 N-gram 匹配的 BLUE、基於編輯距離以及基於覆蓋率的指標,例如困惑度、重合度、simhash 值、情感極性等,也可以用於對生成內容的評估。人工評測上,更多是輔助調整生成結果與業務目標的匹配程度。
在實際的業務邏輯中,AI 創作生成的內容,等同站內自由的內容,但需要新增標記位進行區分,以便於出現 case 的時候定位來源,積累的生成內容的 case 能夠反向推動生成模組的迭代。
2.4 加盟星應用場景
AI 創作內容,不僅僅侷限於提升站內內容的覆蓋率,滿足使用者的搜尋需求,在推薦和廣告場景下,也能帶來巨大的業務價值,滿足個性化、定製化的內容生成。以加盟星廣告為例,如果能夠根據使用者、展現場景、自動生成創意文案,滿足個性化的生成,更加符合使用者的認知,在一定程度上去提升業務指標。同樣的,在推薦上,透過自動生成推薦理由、排行榜理由等,可能會更好的滿足帶動業務指標的提升。加盟星在這方面希望打造一套智慧內容生成的高質量、系統化的解決方案,從而為加盟星業務場景的發展助力。
三、總結反思
AI 創作能夠有效的提升業務對使用者搜尋的覆蓋程度,但隨著從結構化的模板生成到半結構化直到完全非結構化的自由文字生成,創作的難度是逐漸增加的,對於生成內容的結果也是越來越不可控的,因此,對生成內容的把控尤為重要,避免出現不合時宜的內容產生從而帶來不必要的損失。希望後續能夠逐步完善最佳化整個招商加盟行業的內容創作框架,引入更多的先驗知識生成更加完備的內容。
推薦閱讀:
---------- END ----------
百度 Geek 說
百度官方技術公眾號上線啦!
技術乾貨 · 行業資訊 · 線上沙龍 · 行業大會
招聘資訊 · 內推資訊 · 技術書籍 · 百度周邊
歡迎各位同學關注