h.264又out了,英偉達老黃用神經網路代替傳統的h.264影片編解碼器 - petapixel

banq發表於2020-10-08

NVIDIA Research發明了一種使用AI的方法,可以顯著減少視訊通話頻寬,同時提高質量。研究人員已經取得了令人矚目的成果:透過用神經網路代替傳統的h.264影片編解碼器,他們設法將視訊通話所需的頻寬減少了一個數量級。在一個示例中,所需的資料速率從97.28 KB /幀下降到僅0.1165 KB /幀-降至所需頻寬的0.1%。
AI輔助視訊會議的機制非常簡單。該技術透過用神經資料代替傳統的完整影片幀而起作用。通常,視訊通話透過向接收者傳送h.264編碼的幀來工作,而這些幀的資料量非常大。在AI輔助的視訊通話中,首先,傳送方傳送呼叫方的參考影像。然後,它不傳送畫素打包的影像流,而是在影像上圍繞眼睛,鼻子和嘴巴傳送特定的參考點。
然後,接收方的生成對抗網路(或GAN,一種神經網路)將參考影像與關鍵點結合使用,以重建後續影像。由於關鍵點比全畫素影像小得多,因此傳送的資料少得多,因此Internet連線速度可能會慢很多,但仍可以提供清晰而實用的影片聊天功能。
在研究人員的最初示例中,他們表明,使用傳統方法和新神經網路方法,快速的Internet連線都可以產生幾乎相同的流質量。但是,最令人印象深刻的是他們的後續示例,其中使用傳統方法的網際網路速度顯示出質量顯著下降,而神經網路能夠產生極其清晰且無偽影的影片源。
即使受試者戴著口罩,眼鏡,耳機或帽子,神經網路也可以工作。
使用這種神經網路將對現代勞動力產生巨大的影響,這些勞動力不僅將緩解網路壓力,而且還為使用者提供遠端工作時的更多自由。但是,由於這項技術的工作方式,幾乎肯定會對其如何部署產生疑問,並導致“深層偽造”的問題變得更加可信和難以發現。

相關文章