內容社群行業搜尋最佳實踐

阿里云云棲號發表於2022-11-23

簡介:社群內容通常包括UGC和PGC。由於關鍵詞和內容多樣性豐富、用詞規範程度參差不齊,搜尋引擎需要對關鍵詞和內容進行智慧語義分析,識別出使用者真正的查詢意圖,找到最全面最相關的結果滿足使用者需求。本文將詳細介紹如何透過“開放搜尋(OpenSearch)內容增強版”在社群論壇場景的應用,提升使用者搜尋體驗,帶來更多的業務轉化。

社群的核心是使用者,使用者進入社群的主要目的是為了消費內容。內容可以是廣義的圖文、音訊、影片,也可以是透過社群找到解決問題的方法。優質的內容能提升使用者的活躍度,為平臺帶來流量與時長,實現使用者增長和留存,獲得更多業務機會和收益。

"搜尋"作為社群直接獲取內容的最有效途徑,每個社群都在不斷解決下面的搜尋效果問題:

  • 如何準確理解使用者的搜尋意圖,返回最匹配的結果?
  • 如何透過內容傳播的差異化,個性化來提升使用者的搜尋體驗,增強社群歸屬感和忠誠度?
  • 如何在社群裡不同領域,不同垂類,不同頻道間的內容召回中實現互動和連線?
  • 如何實現非商業化內容與商業化內容更好的融合與發展?

本文將帶著以上幾個思考,為大家解析內容社群行業搜尋特點和挑戰,以及介紹阿里雲智慧開放搜尋-內容社群行業增強版的解決方案和應用實踐。

內容行業搜尋業務需求
» 更多的曝光機會——無結果率低;
» 更好的搜尋質量——搜尋相關性高,更高質量的排序;
» 更豐富的業務特徵——結合業務特性調整搜尋結果;
» 更全面的配套功能——智慧糾錯、熱搜、底紋、下拉提示等配套能力;
» 更低的擁有成本——相較自建搜尋引擎更低的開發、資源、運維成本;
» 更便捷的開發使用——上線週期短,降低搜尋引擎開發、效果調優難度;

» 使用者搜尋意圖指向性強——主搜聚集多個頻道內容,搜尋結果相關性要求更加精準;

以某論壇社群為例,產品線覆蓋多個平臺,包含網頁、APP、小程式等形式,同時業務上區分多個頻道。隨著業務的發展,首頁綜合搜尋(後簡稱“主搜”)的流量越來越大,各種付費、引流業務接入,對搜尋流量的運營變得更加重要,對主搜的業務訴求越來越多,需要聚合多個頻道的內容,同時搜尋結果相關性要求更加精準,在考慮文字相關性的前提下,要加入更多的商業因素考慮。

成熟的搜尋引擎涉及離線模組、線上模組、查詢理解服務、演算法平臺等系統,所需大量開發、演算法調優以及持續的複雜運維工作,由於人力有限,自建搜尋系統很難滿足業務需求。

常見搜尋業務場景

文章搜尋

  • 博文、問答、心得分享等內容搜尋
  • 精品內容、熱帖發現
  • 付費資源引流
  • 標籤分類過濾、篩選

image.png
(配圖來自阿里雲開發者社群)

話題搜尋

  • 熱門活動、話題互動
  • PGC、UGC
  • 熱搜、底紋、下拉提示等搜尋引導
  • 個性化、時效性

image.png
(配圖來自阿里雲開發者社群)

開放搜尋內容社群增強版

方案架構

image.png

功能介紹

內容行業增強版基於阿里巴巴最新演算法功能,貼合不同垂類內容搜尋場景的痛點和需求,提供了內容行業專屬的智慧語義理解能力、向量召回、排序演算法,為內容行業的搜尋效能和效果準確性提供雙重保障,並有效的解決了超大詞庫資料導致的搜尋延遲高、資源消耗大、搜尋無結果率高等行業重難點問題。針對內容行業,開放搜尋還提供了向量模型,以實現向量召回及多路搜尋,提高查詢準確率,並提供多模態搜尋解決方案。

通用版VS內容行業增強版

  • 功能差異

image.png

  • 查詢分析效果對比

行業增強版較通用版相比在查詢分析功能上做出了更深入的最佳化,不僅在通用版的基礎上更新了常見bad case,而且針對內容行業集各家之所長,豐富已有詞庫。

分詞:(以空格分詞)
image.png

拼寫糾錯:

image.png

內容行業向量召回

針對內容行業的垂類行業資料分佈提供高質量的向量召回模型,保證長尾query,包含錯別字query,依賴同義詞改寫召回query的召回效果

  • 向量召回

image.png

CTR預估模型-個性化搜尋效果

基於Seq行為建模,實現個性化搜尋

例如:使用者連續搜尋:“面試”,“Java”兩個詞和使用者只搜尋“Java”的結果是有差異的,實現個性化召回,針對性滿足不同使用者的搜尋需求,提示使用者搜尋體驗。

深度排序模型DeepRanking

模型引數規模可以達到1000億級別,保障更優搜尋效果,且模型訓練、使用成本低,遠低於自研人力+機器+研發支援所用成本。

深度召回模型集合阿里雲達摩院的NLP能力,提升搜尋效果,降低無結果率

image.png

針對使用者和資料特點,結合阿里巴巴長期技術積累,深度定製模型結構,做到Make for you的特有深度模型結構。

增強版接入流程

輕鬆接入,快速上手,一鍵式接入行業模板,可根據自身業務自定義選擇功能,並滿足非技術人員業務干預調優與數字化運營需求; 點選體驗互動式demo

表結構設計

詳情可參考應用結構--->建立多表join。

資料接入

開放搜尋支援使用者透過資料來源將資料接入搜尋,也支援無資料來源,透過API/SDK/控制檯上傳檔案的方式匯入資料詳情如下:

  • RDS資料來源配置
  • MaxCompute(原ODPS)資料來源配置
  • POLARDB資料來源配置
  • API/SDK資料匯入

內容社群行業模板配置

功能選擇,垂類選擇“IT”行業為例,模板功能可自行勾選(預設全選)

image.png

其中模板功能包括:查詢分析(IT詞權重、IT同義詞包、文字向量化等)、排序策略(多路搜尋、文字相關性、向量相關性)、下拉提示。

搜尋測試

如需使用“IT向量索引”搜尋,需要先配置查詢分析-文字向量化功能,並新增對應的IT向量索引:

image.png

在搜尋測試中進行測試:

image.png

效果定製服務

如果有深度召回、排序效果調優、個性化搜尋需求,開放搜尋團隊專家支援效果定製服務,可填寫諮詢問卷:https://page.aliyun.com/form/...

案例實踐

某技術社群作為中文IT內容社群,致力於為中國軟體開發者提供知識傳播、線上學習、職業發展等全生命週期服務,旗下包括多款產品。

自開始接觸阿里雲開放搜尋產品,在一年的時間裡陸續接入PC端、移動端的多個平臺,覆蓋首頁搜尋、部落格、下載、問答等細分業務的頻道搜尋。透過開放搜尋,為旗下產品的使用者提供高質量的搜尋服務,並透過搜尋能力的最佳化帶來更多的業務轉化,提升整體業務收入。

  • 對比基於開源自建的服務CTR提升超過80%
  • 後續演算法專家透過深度定製模型不斷幫客戶調優,每曝光使用者帶來點選次數提升16.7%,Item-CTR提升11.8%,效果還在持續提升中;

image.png

原文連結
本文為阿里雲原創內容,未經允許不得轉載。

相關文章