「壓縮」會是機器學習的下一個殺手級應用嗎?

Terminator2050發表於2018-11-08

機器學習的研究正進行的如火如荼,各種新方法層出不窮。儘管這樣,還有一個問題擺在面前,研究這些演算法對於現實有什麼用。特別是當討論起機器學習在手機和其他裝置上的應用時,經常會被問到到:「機器學習有什麼殺手級應用?」

機器學習工程師 Pete Warden 思考了很多種答案,包括從語音互動到全新的使用感測器資料的方法等,但他認為實際上短期內最激動人性的一個方向是壓縮演算法。儘管壓縮演算法在研究領域基本上是人盡皆知的一個方向,還是有很多人還是會對這個看法感到驚訝。在本篇博文中,Pete Warden 分享了他的關於為什麼壓縮演算法如此有前景的看法。雷鋒網 AI 科技評論編譯如下。

當我讀到一篇名為「神經自適應內容感知的網際網路視訊分發」(Neural Adaptive Content-aware Internet Video Delivery)的論文的時候,我意識到了這個領域的重要性。這篇文章在總結裡說到,通過神經網路,在保證頻寬相同的情況下,該方法能夠將質量體驗指標提高 43%。或者在在保證相同的觀看質量下,減少 17% 的頻寬使用。實際上還有很多類似研究方向的論文,比如生成式壓縮(https://arxiv.org/pdf/1703.01467.pdf )和自適應影像壓縮(https://arxiv.org/pdf/1705.05823.pdf  ) ,但為什麼沒有聽說到更多的關於壓縮演算法的機器學習實際應用呢?

 

目前還沒有足夠的計算能力

所有這些基於機器學習的壓縮方法都需要相對較大的神經網路,並且所需的計算量與畫素數量成正比。這意味著高解析度影像或者高幀率視訊需要更多的計算能力,可能遠遠超過當前行動電話或類似裝置能夠提供計算量。目前大多數CPU能夠處理每秒幾百億次的算術運算,而在高清視訊上執行機器學習壓縮演算法很容易就需要十倍以上的計算量。

好訊息是現在有了一些新的硬體解決方案,比如 Edge TPU 等,在未來可能能夠提供更多可用的計算資源。我希望我們能夠將這些資源應用於各種壓縮問題,從視訊和影像以及到音訊。

 

自然語言是最終極的壓縮

我認為機器學習非常適合於壓縮演算法的另一個原因是,我們最近在自然語言處理中得到了很多有趣的結果。如果你仔細琢磨圖片的話,其實是可以將影像描述看作是圖片的一種終極壓縮方法。我一直以來都希望建立一個專案,一個能夠以每秒一幀的速度給照相機拍下的圖片配上描述文字,之後將這些描述文字寫入到日誌檔案中。通過這個就能夠得到一個非常簡單的故事,講述著相機隨著時間的推移看到了什麼。我認為這就可以看作一個能夠敘事的感測器。

我將這種東西叫做壓縮的原因是,我們其實可以使用一個生成神經網路來根據字幕生成圖片。這個生成出的圖片並不一定要與輸入圖片完全一樣,只要它們具有同樣的意思就可以了,這就可以看作是一個解壓縮演算法。如果想要輸出的結果與輸入儘可能相似的壓縮演算法,可以參考影像風格化的演算法,將圖片壓縮為每個場景的輪廓線。這些演算法與傳統壓縮演算法的共同之處在於,它們找到了輸入中對於我們人類最重要的資訊,而忽略了其他的細枝末節。

 

不僅僅是影像

語言世界也有類似的趨勢。語音識別技術正在迅速改進,合成語音的能力也在迅速提高。識別過程可以看作是將音訊壓縮為自然語言文字的過程,而合成則正好反過來。而人之間的對話可以通過將音訊翻譯為文字表示而的到極大的壓縮。我現在還很難想象是否需要走那麼遠,但是似乎有可能通過我們對與語言特徵的新理解來實現更好的壓縮質量以及更低的頻寬。

我甚至看到了將機器學習壓縮演算法應用到文字本身的可能。Andrej Karpathy 的 Char-RNN(https://github.com/karpathy/char-rnn)展示了神經網路可以很好的模擬給定樣本的風格,這種學習風格的本質與壓縮問題是很相似的。如果考慮一下典型的 HTML 頁面有多少冗餘,機器學習壓縮演算法其實有很好的機會去改進 gzip。但這只是我的一個猜想,畢竟我沒有機器學習文字壓縮的經驗。

 

壓縮演算法已經是一個有市場的專案

在我創業生涯中,我曾嘗試向企業銷售產品而最終失敗,從中我學到了一件事情,就是如果企業已經有大量的資金分配在你所銷售的產品類別上,那麼進行銷售會更加容易。企業對於某種產品有預算意味著公司已經做出了是否要在該項解決方案上花錢的決定,現在的唯一問題是要購買哪種解決方案。這就是為什麼我認為機器學習可以在這個領域取得巨大進展的原因之一,因為製造商已經擁有專門用於視訊和音訊的壓縮工程師,以及對應的資金和晶片製造產業。如果我們能夠證明將機器學習新增到現有的解決方案中可以提高某些指標,如質量速度或者功耗,這些方法就能夠很快被採用。

頻寬成本需要平攤到使用者和運營商身上,而質量和續航是產品的一大賣點,因此採用機器學習進行壓縮相比於其他應用方向有更直接的動機。現有的研究表明,機器學習演算法進行壓縮非常的高效,而且我樂觀的認為還有很多方法等著被發現,所以我希望壓縮演算法會成為機器學習的一個重要應用。

 

via Pete Warden`s blog(https://petewarden.com/2018/10/16/will-compression-be-machine-learnings-killer-app/),雷鋒網 AI 科技評論編譯

相關文章