實時機器學習是什麼,面臨哪些挑戰?

lidiya007發表於2018-11-15

        最近能夠隨資料獲取實時調整模型的實時機器學習,正在成為媒體技術領域的新“網紅”。曾經連續兩年,都被FTI評為傳媒業的重要技術趨勢之一,與自然語言理解NLU、機器閱讀理解MRC、音視訊演算法等共享金字塔頂端的榮光。

那實時機器學習到底是什麼呢?

  在開啟扒皮模式之前,我們先來了解一下,實時機器學習究竟在哪些地方比傳統的機器學習更強?

  傳統的機器學習(ML)正在媒體領域得到越來越多的應用,利用演算法實現內容的“個性化推薦”,已經成為主流媒體的標配。

  但過去的演算法,主要側重於使用靜態模型和歷史資料進行訓練並提供預測。比如使用者在瀏覽網站時,可以根據使用者歷史行為資料來推送新聞。

  而一些新的涉及動態實施決策的業務,比如具備時效性的熱點新聞,或是使用者想要看點新東西,這就需要用一種新的演算法來實現,即實時機器學習Real-Time Machine Learning。

  以頭條的核心技術“個性化推薦演算法”為例,其核心原理就是根據使用者對文章的歷史行為資料反饋,進行統計挖掘和判斷。

  比如具有相同偏好的三個使用者,分別選擇了自己喜歡的文章,得到最高票數的文章就會被推薦給被系統打上同一屬性標籤的第四個人……以此類推。

  不難發現,傳統機器學習演算法的成功,依賴於對使用者的“知根知底”,需要使用者不斷開放自己的私人領地。

  而實時機器學習,更擅長對使用者的當下需求體察入微,讓使用者在保持隱私安全感的同時,獲得如沐春風的瀏覽體驗。

顯然,實時機器學習演算法將主導一個令人期待的新世界,也有越來越多的媒體在為此做著準備。

 

        實時機器學習技術的深入應用,將解鎖很多超乎想象的媒體功能和應用場景。但是,儘管學界已經在演算法上提出了幾種理想的架構,但產業端卻未迎來蓬勃的質變。這究竟是為什麼?實時機器學習落地到底面臨哪些挑戰呢?

1. 高吞吐量與低延遲的平衡。

  媒體平臺的海量使用者需求,決定了實時機器學習要在每秒處理數百萬任務量級。以這樣的速度進行大規模的資訊分發,需要細緻到毫秒級的任務執行能力。

2. 動態異構任務模組的高效喚醒。

  對於Facebook這樣體量龐大的平臺來說,其服務是由成千上萬個不同模組構建而成的,流量調節、影象轉碼、儲存編碼等等。在實時任務中,會伴隨生成很多不同資源支援的新任務,增加系統的響應和處理難度。

  如何對這些重要且不一樣的特性進行預測,十分具有挑戰性。

3. 實時演算法與業務場景的融合。

  實時響應和預測,意味著留給系統的容錯空間更小。要保障這一技術在實際應用場景中的穩定性,就要在完成高吞吐量任務的同時,能夠快速模擬真實世界的互動,然後精準地判斷出,哪些是結果的決定性因素,從而做出正確的響應。

  舉個例子,如果想給使用者推薦“哪些朋友贊過此貼”,實時演算法會快速判斷出“最近一次檢視”這一資料集對完成該任務毫無意義,然後快速修改關聯並重新學習。這種自適應調整,可以有效防止使用者收到的結果中出現明顯的錯誤點。

    

作者:腦極體

原文連結:https://www.kg.com/article/512402530874036224

相關文章