億級搜尋系統的基石,如何保障實時資料質量?

阿里技術發表於2020-03-24
億級搜尋系統的基石,如何保障實時資料質量?

阿里妹導讀:突然而至的疫情,讓線下娛樂幾乎停擺。全國人民對於線上娛樂需求激增,在家追劇、在家上課、在家互動,還要時刻關注疫情動態。每時每刻,都有海量使用者在優酷搜尋自己想看的內容。千萬級別的視訊量,幾十億級別的資訊量,如何能做到將資訊及時有效的透出給使用者?怎樣保障資料準確無誤的呈現呢?

阿里文娛有專門的搜尋引擎演算法團隊做相關的探索。可你知道嗎?在演算法業務背後,面對數億的視訊資料,還有一支技藝高超的測試團隊,在保障龐大資料系統的資料質量。

阿里文娛測試開發專家熙閆將通過本文講述阿里文娛是如何構建實時資料質量保障體系,進而提升搜尋引擎資料全面、快速、準確效果的,希望對大家有啟發。

一、背景

優酷視訊搜尋是文娛分發場的最核心入口之一,資料來源多、業務邏輯複雜,尤其是實時系統的質量保障是一個巨大挑戰。如何保障資料質量,如何衡量資料變化對業務的影響?本文會做詳細解答。

二、現狀分析

搜尋資料流程如下圖所示,從內容生產到生成索引經歷了複雜的資料處理流程,中間表多達千餘張,實時資料消費即消失,難以追蹤和復現。

億級搜尋系統的基石,如何保障實時資料質量?

從上圖可以看出,整個系統以實時流模式為資料流通主體,業務層面按實體型別打平,入口統一分層解耦,極大的增加了業務的實時性和穩定性。但是另一方面,這種龐大的流式計算和資料業務系統給質量保障帶來了巨大的挑戰,從0到1建設實時資料的質量保障體系,同時保證資料對搜尋引擎業務的平滑過渡是我們面臨的考驗。

三、實時資料質量保障體系方案

質量保障需要透過現象看本質。通過對架構和業務的分析,可以發現整個流式計算的業務系統有幾個關鍵點:流式計算、資料服務、全鏈路、資料業務(包括搜尋引擎的索引和摘要)。整體的質量訴求可以歸類為:

  1. 基礎資料內容質量的保障
  2. 流式鏈路的資料正確性和及時性保障
  3. 資料變化對業務效果的非負向的保障

結合線上、線下、全鏈路閉環的理論體系去設計我們的整體質量保障方案,如下圖所示: 

億級搜尋系統的基石,如何保障實時資料質量?

相關文章