Pensieve:AI帶來的更流暢的高質量觀看體驗

LiveVideoStack發表於2018-06-13

640?wx_fmt=jpeg


麻省理工學院電腦科學與人工智慧實驗室(MIT CSAIL)開發的基於機器學習的流媒體系統能更好的適應不同的網路條件,從而提供更加流暢的流媒體傳輸體驗。LiveVideoStack對原文進行了摘譯。點選【閱讀原文】訪問Pensieve官網

文 / Adam Conner-Simons

譯 / 金歌

審校 / Alex.Chow

原文:http://news.mit.edu/2017/high-quality-online-video-with-less-rebuffering-pensieve-0814

我們在YouTube上觀看視訊時常會遇到兩件非常令人不悅的事情:視訊突然出現了大量馬賽克,或者卡住並開始重新緩衝。

這兩種情況的出現都是由於特定的演算法預先將視訊切分成很多小片,並隨著你觀看的進度進行實時載入。如果你的網速很慢,YouTube可能會將隨後幾秒視訊的解析度降低,以確保視訊觀看的流暢性,從而造成馬賽克現象(畫素化)。如果你試圖快進,直接跳到視訊尚未載入的部分,那麼視訊就不得不停下來以便對該部分進行緩衝。

YouTube通過自適應位元率(ABR)演算法,旨在為使用者提供更加穩定的觀看體驗。這類演算法還節省了頻寬:人們通常不會自始至終的觀看視訊,因此,面對每天10億小時的視訊流量,倘若隨時為所有使用者緩衝成千上萬條長視訊,這無疑是一種資源的浪費。

儘管ABR演算法總體上解決了這些問題,但使用者對視訊流觀看體驗的期待也在不斷升高,並且諸如Netflix和YouTube這類網站在視訊質量與播放卡頓率之間的折衷依然無法滿足使用者的需求。

“研究表明,使用者會因視訊質量過低而放棄觀看該段視訊,從而導致內容提供商在廣告收入方面遭受重大損失,”麻省理工學院Mohammad Alizadeh教授說道, “視訊網站必須不斷尋求新的創新方案。”

為此,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的Alizadeh教授和他的團隊開發了“Pensieve”系統。這是一種基於人工智慧的系統,通過機器學習的方法,依據網路條件選擇不同的演算法。與已有系統相比,該系統在提升視訊質量的同時,能獲得更低的卡頓率。

具體來說,該團隊在實驗中發現,相比於其他視訊流傳輸方式,Pensieve可以將重緩衝情況降低10%到30%,並且在關鍵的“體驗質量”(QoE)指標方面,使用者評分高出了10%到25%。

Pensieve系統也可以根據內容提供商的優先順序對演算法進行調整。 例如,如果使用者正在乘坐地鐵並且即將進入無網路區域,YouTube可以選擇自動降低位元率,快速載入足夠量的視訊,以便使用者在通過無網路區域時進行觀看,而無需進行重緩衝。

 “我們的系統非常靈活,可以對任何目標進行優化。”博士研究生Hongzi Mao說道。Hongzi Mao作為第一作者與Alizadeh教授和博士生Ravi Netravali共同撰寫了相關論文。“你甚至可以設想,使用者能夠根據自己對重緩衝和降低解析度的需求,個性化定製屬於自己的流媒體體驗。”

自適應位元率演算法的工作原理

ABR演算法大體上分為兩種:第一種是基於網速,演算法根據測量出的網路速率對流媒體傳輸進行調整,第二種是基於緩衝,旨在確保總有一定長度的待觀看視訊已被提前緩衝。

然而,這兩類演算法有著共同的弊端,即他們沒有同時考慮到網速和緩衝。因此,這些演算法所做的位元速率選擇決策通常表現都不夠好,需要專業人員手動調整才能適應不同的網路條件。

研究人員也曾試圖將兩種方案結合起來:卡內基梅隆大學開發出了一種基於“模型預測控制”(MPC)技術的系統,其表現比前文提到的兩類演算法都更勝一籌。這種系統旨在通過預測使用者網路條件隨時間變化的方式來對決策進行優化。這是一個很大的改進,但仍然存在著難以對網路速率等因素進行建模的問題。

Alizadeh教授對此的評價是:“對動態的網路進行建模是非常困難的,而採用像MPC這類技術的系統,其最終表現將取決於網路動態模型是否優質。”

Pensieve不需要依賴任何模型以及任何關於網路速率等條件的假設。它利用神經網路實現ABR演算法,並在多種不同緩衝情況和網路速率條件下反覆進行了全面的測試。

該系統通過獎勵和懲罰機制對其演算法進行調整。例如,系統將在視訊以高解析度傳輸並且無緩衝(等待)時獲得獎勵,而在視訊進行重緩衝時遭到懲罰。

“該系統能夠自行學習不同策略是如何對其表現造成影響的,並且通過觀察過去(已有)的實際表現,更穩健地對其決策方式進行改進。”Hongzi Mao說道。(Hongzi Mao在最新一篇相關論文中擔任第一作者。)

像YouTube這樣的內容提供商可以根據他們優先考慮的指標來自行定製Pensieve系統的獎罰機制。例如,研究表明,觀看者在視訊播放的開始階段更容易接受重緩衝現象,因此演算法可以被調整為,對出現緩衝現象的懲罰隨著時間的推移而加重。

融合深度學習技術的機器學習

該團隊在多種環境中對Pensieve系統進行了測試,包括在咖啡廳中使用Wifi,在街上步行時使用LTE等。實驗表明,與MPC相比,Pensieve在達到與其相同的視訊解析度時,緩衝情況減少了10%到30%。

 “以前的方案都嘗試基於專家的直覺進行控制,”卡內基梅隆大學電氣和計算機工程學院的助理教授Vyaz Sekar說道(他沒有參與Pensieve系統的研究),“而Pensieve系統則預示著利用新的類‘深度學習’技術的機器學習方法,將有很大希望取得成功。”

Hongzi Mao說,該團隊的實驗表明,Pensieve即使面對以前從未出現過的情況也能很好地做出應對。

“當我們在利用合成資料對Pensieve進行壓測時,該系統依然足以應對真實的網路情況,”Hongzi Mao說道。“這種壓測表明,該系統能夠很好地對現實世界中的新場景進行推理。”

Alizadeh教授還指出,Pensieve系統只接受了一個月下載量的視訊資料的訓練。如果團隊能夠擁有Netflix或YouTube量級的大規模資料,該系統的效能將會有更加顯著的提升。他們團隊的下一個專案是在VR視訊場景下對Pensieve進行測試。

“傳輸4K解析度的VR視訊往往需要高達每秒數百兆的位元率,目前的網路根本無法支援如此高的位元率,”Alizadeh教授說。“我們很期待Pensieve這樣的系統能夠為VR視訊的傳輸做出一些貢獻。不過這僅僅是Pensieve應用所邁出的第一步。“

Pensieve由國家科學基金會以及高通公司的創新研究獎學金部分資助。

LiveVideoStackCon 2018講師招募


640?wx_fmt=jpeg


LiveVideoStackCon 2018是音視訊技術領域的綜合技術大會,今年是在10月19-20日在北京舉行。大會共設立18個專題,預計邀請超過80位技術專家。如果你在某一領域獨當一面,歡迎申請成為LiveVideoStackCon 2018的講師,讓你的經驗幫到更多人,你可以通過speaker@livevideostack.com提交演講資訊。瞭解大會更多詳情,請掃描圖中二維碼訪問LiveVideoStackCon 2018官網,報名即刻享受7折優惠。


相關文章