【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

else發表於2021-09-11
摘要:在第七屆全球軟體大會上,華為軟體開發工程師禹繼波和開發者聊了聊華為雲官網的智慧化實踐, 主要集中在內容運營的內容生產、內容解析、內容質檢、內容分發、內容消費和使用者反饋等6個流程,以及在此過程中遇到的業務痛點。

本文分享自華為雲社群《》,原文作者:技術火炬手 。

網際網路每時每刻都在產生海量的內容,來自睿亞的報告顯示:中國網際網路60秒內產生了420萬條語音訊息,830萬條共享影片,416萬次搜尋查詢,165萬次微博訪問。

面對如此多的內容,我們應該如何做好網站內容運營呢?

在第七屆全球軟體大會上,華為軟體開發工程師禹繼波和開發者聊了聊華為雲官網的智慧化實踐, 主要集中在內容運營的內容生產、內容解析、內容質檢、內容分發、內容消費和使用者反饋等6個流程,以及在此過程中遇到的業務痛點。

並著重介紹了華為雲如何利用AI演算法和模型提供自動化的能力,降低人力成本,提升了內容質量和內容分發的效率。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

如何判斷內容質量,高效內容分發的關鍵又是什麼?

數字化時代,流量是網站內容運營的關鍵,而高質量的內容和高效的內容分發帶來的良好體驗是流量提升的基礎。一個負面的例子是印度媒體在報導性侵事件中誤用了普京的照片,正面的例子是新聞、電商、影片類網站利用推薦和搜尋進行內容分發。

那華為雲官網作為內容網站是怎麼做的呢?

首先介紹下華為雲內容生命週期和內容運營的流程,華為雲官網內容運營共分為6個階段:內容生產、內容解析、內容質檢、內容分發、內容消費和使用者反饋。官網的頁面、文件、音影片圖片首先進行內容解析和理解,透過內容稽核後由運營人員分發到現網,終端使用者在華為雲官網進行內容消費後將相關意見反饋到內外部平臺。

在內容運營過程中,我們的痛點包含以下部分:

  1. 大量的多媒體(音影片、圖片等)內容需要深入分析語義,才能判斷內容質量,進行有效的分發,耗時耗力;
  2. 內容釋出資料量大,更新頻繁,大量的內容質量檢查消耗的人力大,效率低;
  3. 傳統的運營配置的方式,不能滿足複雜客戶群體的個性化需求,容易降低使用者興趣,導致使用者流失;
  4. 終端使用者的訪問體驗,不能得到有效的採集、分析和閉環,不利於產品體驗的快速改進。

針對以上問題我們主要透過智慧化的方案來解決各個階段的業務痛點,包括:

  1. 在內容解析環節,利用OCR、ASR、NLP等技術自動提取內容的結構化資訊,降低人工成本;
  2. 在內容稽核環節,利用NLP技術和華為雲Moderation服務,進行機器稽核;
  3. 在內容分發環節,利用內容的結構化(TDK、標籤、類別等)資訊,以及智慧推薦、智慧搜尋等相關技術提升內容分發的效率和準確性,提升使用者體驗;
  4. 在使用者反饋環節,利用NLP相關技術進行情感分析和聲音分類,及時處理、閉環,並持續形成產品改進建議。

下面詳細介紹華為雲智慧運營相關實踐。

官網智慧化運營實踐的關鍵舉措

首先介紹一下華為雲官網智慧運營的整體架構,架構比較簡單,包含幾個關鍵分層。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

首先最底層為基礎服務層,我們所有業務都是基於華為雲服務構建,包括AI相關的OCR、ASRC、NLP、RES、ModelArts,大資料相關的DLI、MRS等,以及基礎的SQL和NoSQL儲存服務;在基礎服務層上面的是核心資料層,包括使用者畫像、行為資料,物品資訊等資料;中間層是我們的的特徵工程和演算法模型層,演算法模型主要集中在NLP、智慧推薦、智慧搜尋相關演算法。再上層我們構建了服務元件用於支撐不同的業務場景,包括畫像和標籤元件、策略管理排序元件、AB測試和日誌採集元件等;最頂端的上層應用場景主要有千人五面、推薦、搜尋、輿情和智慧問答等。

我將重點介紹智慧化實踐的一些關鍵舉措。

關鍵舉措1:內容解析

在內容解析階段,我們利用華為雲的OCR和ASR技術提取圖片和音影片的文字,便於下一步自動化的內容稽核;同時我們利用NLP相關技術提取文字的關鍵字、摘要、標籤、分類、主題等結構化資訊,用於搜尋引擎最佳化和內容分發階段的模型訓練。

關鍵舉措2:內容質檢

內容經過文字提取和語義理解後,我們藉助自動化手段進行內容質檢,包括文字糾錯、內容稽核和規範性檢查。其中文字糾錯提供了基於拼音的糾錯、基於N-Gram子串的接錯、基於語言模型的糾錯的能力,因為業務需要定期的更新關鍵詞、語料,並進行模型定時更新。

內容稽核對接了華為雲的Moderation服務,它具備文字、影像、影片的稽核能力,業務只要定期的更新敏感詞庫即可。除此之外,還有規範性檢查,包括404死鏈、TDK資訊、貨幣單位等,採用的方案主要是爬蟲服務和規則引擎。

關鍵舉措3:內容分發-智慧推薦

在內容分發階段,我們主要引入了智慧推薦和智慧搜尋,智慧推薦是透過智慧化的手段,基於使用者物品畫像,以及使用者行為預測使用者興趣,實現內容找人、精準推薦,提升轉化率。

華為雲智慧推薦的系統架構如下:基於離線的OBS資料,採用DLI的離線處理抽取使用者物品畫像、使用者行為資訊,採用DLI的離線處理進行特徵工程、召回和排序模型訓練。訓練後釋出到提供線上推理能力的ModelArts平臺。

同時我們也支援實時的推薦能力,業務透過DIS通道上傳使用者和物品資訊並實時更新使用者和物品畫像,再由DIS通道對接實時行為,進行使用者興趣標籤更新,並召回實時推薦結果集。最後,使用者訪問官網頁面時,透過請求ModelArts介面放回排序後的推薦內容。

關鍵舉措3:內容分發-推薦演算法

業界的推薦演算法相對已經比較成熟,我們採用了常用的召回和排序演算法,召回部分包括:協同過濾和興趣匹配,排序部分主要採用了LR和DeepFM。其中LR的優點是模型簡單、高效、計算量小,缺點是無法處理多個特徵之間的關係。DeepFM的優點是:融合了低階和高階的特徵,特徵越多越精準。

最終,智慧推薦為業務帶來不少提升效果,比如內容的分發效率由小時級提升到分鐘級,內容推送的覆蓋率提升到90%+。

除此之外,官網產品、活動推薦的點選率、註冊和購買轉化率以及社群首頁部落格推薦的點選率都得到了提升。

在內容分發的智慧推薦上,我們也總結了幾點心得體會:

  • 對於資料量小的業務場景,優先選擇模型簡單、解釋性強的演算法上線,快速最佳化並透過AB測試快速驗證演算法的效果;
  • 充分利用使用者的近線和搜尋行為,因為近線代表著使用者的實時興趣,搜尋一般能夠代表使用者的內容述求,對於業務的指標提升會比較好;
  • 在推薦場景中,沒有任何演算法是萬能的,需要結合場景、結合使用者和業務特點和資料分析的結果,選擇合適的演算法。

關鍵舉措4:內容分發-智慧搜尋

智慧分發另一個關鍵措施是智慧搜尋,從資料統計和右側熱力圖分析得出,使用者搜尋結果更加關注結構化的卡片部分,以及排名靠前的文章,越往後關注度越低。因此我們搜尋最佳化主要集中在以下幾個方面:1. 卡片智慧召回;2. 搜尋召回最佳化;3. 搜尋排序最佳化。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

卡片智慧召回

在卡片智慧召回部分,我們主要利用FastText模型,預測使用者搜尋詞對應的卡片類別(文字分類)。其中輸入層是組成query的單詞的向量,輸出層是softmax層,主要輸出預測的卡片和機率。

同時,我們對隱藏層做了結構最佳化,原結構採用疊加平均的方式,雖然計算速度快,但是存在資訊丟失,因此將隱藏層改為拼接後全連線embedding的方式。

基於深度語義模型RNN-Attention-DSSM的召回最佳化

我們利用RNN-Attention-DSSM模型進行搜尋召回最佳化,傳統的ES查詢都是基於關鍵詞匹配的查詢召回,對於關鍵詞不匹配但是語義一致的無法召回。DSSM模型透過Query和Doc的海量曝光點選日誌,用DNN把Query和Doc表達為低維語義向量,再透過 cosine距離來計算兩者的語義向量距離,最終訓練出語義相似度模型。RNN-Attention-DSSM則是對DSSM的進一步最佳化,透過RNN和Attention機制考慮了語句的上下文特徵。

RNN-Attention-DSSM模型如下:最上層是典型的DSSM層,根據查詢和正向、負向文件的向量距離計算語義相似度,並進行softmax。訓練的目標是使得查詢下正向文件的機率最高。下方左側是個典型的GRU網路,右側是典型的Self-Attention模型。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐


我們的訓練資料如下:正樣本為Query點選的Doc,負樣本是從Query未點選的Doc中隨機抽取,正負樣本比例為1:4。Query輸入是使用者查詢內容,Doc輸入是檔標題+書籍名。

基於學習排序演算法Ranknet的排序最佳化

同時我們利用Ranknet模型對搜尋召回結果進行排序最佳化,將相關性高的doc放在靠前的位置,提高搜尋結果準確性和使用者體驗。Ranknet模型屬於pairwise方法,不關心某個doc與query的相關程度的具體數值,而是將所有的doc排序問題轉化為求解任意兩個doc的先後問題。即:使用 doci比docj更相關、docj比doci更相關以及兩者相關程度相等,共三個類別,並分別使用{1, -1, 0}作為對應的類別標籤。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

如上圖,Ranknet演算法流程為:左側根據使用者的查詢和召回的文章提取特徵,然後由一個DNN網路計算出每個文件的分詞,再將文件的分值兩兩求差值,之後經過sigmoid函式將數值約束在(0,1)之間。

最右鍵標註資料,當前採用的是每篇文件的點選次數,將文件的點選次數進行兩兩比較,小的為-1,相等的為0,大的為1。然後再將比較值進行線性化,將值縮放到[0,0.5,1]的方位。模型訓練的目標是將模型得出的比較值和標籤資料兩兩比較的值儘量接近,模型訓練採用的是交叉熵損失函式。

我們智慧搜尋也帶來了不錯的效果,無論是卡片智慧召回,還是排序最佳化,都提升了Top1000和Top5000的搜尋點選率

下一步我們計劃是首先進一步提升排序模型離線指標,根據業務理解和特徵選擇豐富特徵集,找出更多與相關性相關的特徵;其次是區分長短詞查詢,針對短查詢構建單獨的訓練模型,提升短查詢語句排序準確性;最後是基於NLU進一步挖掘使用者的搜尋意圖,解決使用者搜尋意圖不明確的問題。

關鍵舉措5:體驗閉環-情感分析和聲音分類

對使用者體驗問題的分析和改進,是產品體驗持續改進的重要方式。我們主要利用NLP技術分析使用者情感,並對體驗問題進行分類和分發處理,相關邏輯檢視如下:

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

內外部聲音接入後,經過資料去重和清洗處理後存入資料庫中,再由NLP等能力進行情感分析和聲音分類:對於負面聲音及時發出輿情告警,對於產品的體驗問題和需求分別透過Bug單和需求單跟蹤和閉環。同時我們也有對應的運營管理平臺進行輿情配置、重點輿情跟蹤、情感反饋和看板資料呈現。這一塊採用的模型也比較簡單:底層是一個Bert的預訓練模型,下游外接了一個分類模型。

最終,我們的效果資料如下:

1、負面情感分析的準確率達到95%+;

2、情感分析的工作量極大降低,人力數量減少;

3、負面情感處理的效率由小時級提升到分鐘級;

4、根據體驗問題分類,推動雲服務完成50+有效改進建議閉環。

心得體會是:1、類別定義儘量明確、易區分,減少二義性;2、標註語料小批次高頻率提供,抽樣質檢,準確率低於95%打回重新標註。

工程化實踐總結

我們的工程化實踐比較簡單:基於華為雲ModelArts一站式開發平臺,構建資料處理、模型訓練、模型管理、部署的能力,並基於DGC的定時排程,構建模型持續訓練和釋出的能力。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

為了讓內容運營更加智慧,我們當前正在做的還包括:

  • 基於華為雲NLP盤古大模型預訓練的能力,最佳化文字分類和資訊提取的準確性;
  • 根據華為雲產品關鍵詞和新的功能特性,利用AI演算法智慧生成文章內容;
  • 基於內容深度語義挖掘和結構化資訊,建立華為雲內容的關聯關係,構建內容的統一生命週期管理,並基於關聯關係構建知識圖譜,進行智慧推薦和搜尋;
  • 基於頁面視覺、資訊含量和語義深度的多工文章質量打分,提升內容質量。

福利

瞭解華為雲官網智慧化實踐的關鍵措施後,大家是否有收穫或者有問題想交流呢,歡迎在原文評論區留下你的問題或感想,我們將抽取3條,請專家與你1V1交流(), 並且送出開發者大禮包一份。

本次,還有兩位華為的專家給大家帶來網站高可用保障方案的分享,他們也回答了開發者關心的問題,例如網站高可用保障的最佳方案,低程式碼平臺的選型等等。歡迎掃碼觀看影片。

【全球軟體大會】華為前端工程師分享:華為雲官網的智慧化實踐

最後,附上華為前端研發工程師郭曉在本次全球軟體大會上的技術分享PPT,點選【】可在文末下載檢視。

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2318/viewspace-2795996/,如需轉載,請註明出處,否則將追究法律責任。

相關文章