ICML 2024 | 訊號表徵指數級強、記憶體節省超35%,量子隱式表徵網路來了

机器之心發表於2024-06-26
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者是天津大學智慧與計算學部張鵬教授及其碩士生趙佳銘,博士生喬文博、高琿。該項研究工作受到國家自然科學基金委、天津大學 - 中科聞歌聯合實驗室資助。

圖片

  • 論文標題:Quantum Implicit Neural Representations
  • 論文作者:Jiaming Zhao, Wenbo Qiao, Peng Zhang*, Hui Gao
  • 論文連結:https://arxiv.org/abs/2406.03873

引言

天津大學量子智慧與語言理解團隊創新性地將量子計算引入隱式神經表徵領域,提出了量子隱式表徵網路(Quantum Implicit Representation Network, QIREN)。與經典神經網路方法相比,該方法在理論上具有指數級強的訊號表徵能力。實驗結果也證實了 QIREN 的確表現出超越訊號表示任務上 SOTA 模型的優異效能,在引數量更少的情況下,擬合誤差最多減少 35%。圖 1 中展示了本文的核心思想和主要結論。相關論文已經被機器學習領域最權威的會議之一 ICML 2024 接收。圖片
圖 1. 經典傅立葉神經網路與量子傅立葉神經網路

近年來,隱式神經表徵作為一種新興的訊號表徵方式引起了廣泛關注。與傳統的離散網格表示(例如用畫素網格表示的影像)相比,隱式神經表徵具有許多獨特的優勢。首先,它具備"無限解析度"的能力,可以在任意空間解析度下進行取樣。其次,隱式神經表徵具有出色的儲存空間節省,為資料儲存提供了便利。正因為這些獨特的優勢,隱式神經表徵迅速成為表示影像、物體和3D場景等訊號的主流正規化。大多數關於隱式神經表徵的早期研究都建立在基於ReLU的多層感知器(MLP)之上。然而,基於ReLU的MLP難以精確建模訊號的高頻部分,如圖2所示。最近的研究已經開始探索使用傅立葉神經網路(FNN)來克服這一限制。然而,面對現實應用中越來越複雜的擬合任務,經典傅立葉神經網路也需要越來越多的訓練引數,這增加了對計算資源的需求。本文提出的量子隱式神經表徵利用了量子優勢從而能夠減少引數和計算消耗,這種解決方案能夠給隱式神經表徵甚至機器學習領域帶來新的啟發。

圖片

圖 2. 真實影像的不同頻率分量(頂部)和基於 ReLU 的 MLP 擬合的影像的不同頻率分量(底部)

模型

圖片

圖 3. 模型架構

模型整體架構

QIREN 的總體架構如圖 3 所示,由 N 個混合層和末端的線性層組成。該模型以座標作為輸入並輸出訊號值。資料最初進入混合層,從 Linear 層和 BatchNorm 層開始,得到:

圖片

然後被輸入到資料重新上傳量子電路 QC 中。在圖 2 (b) 和 (c) 中,我們給出了引數層和編碼層量子電路的具體實現。引數層由 K 個堆疊塊組成。每個塊包含應用於每個量子位的旋轉門,以及以迴圈方式連線的 CNOT 門。編碼層在每個量子位上應用門。最後,我們測量了量子態相對於可觀測量的期望值。量子電路的輸出由下式給出:

圖片

其中 O 表示任意可觀測量。第 n 個混合層的輸出將被用作第(n+1)層的輸入。最後,我們新增一個線性層以接收並輸出。我們使用均方誤差(MSE)作為損失函式來訓練模型:

圖片

模型理論分析

在一些先前的研究中,資料重上傳量子線路的數學性質已經被揭示,本質上資料重上傳量子線路是以傅立葉級數的形式擬合目標函式。但之前的工作只探索了多層單量子位元線路或單層多量子位元線路,並且沒有與經典方法進行比較,沒有找到資料重上傳量子線路的優勢。我們將研究擴充套件到多層多量子位元線路。此外,我們證明了在隱式神經表徵領域,以資料重上傳量子線路為核心元件的混合量子神經網路 QIREN 相比經典方法有著指數級優勢。我們分析了 QIREN 中的量子層和經典層的作用並將其歸納為以下三點:

1. 在最佳條件下,資料重上傳量子電路表示傅立葉級數的能力隨著電路的大小呈指數增長。

具體推導見論文 4.2 和 4.3 節。

2. 線性層的作用是進一步擴充套件頻譜和調整頻率,從而提高擬合效能。

在將資料上傳到量子電路之前應用線性層相當於調整編碼層哈密頓量的本徵值,最終影響頻譜。這種方法有兩個優點。首先,它可以使頻譜更大。僅用門編碼時頻譜中會產生一些冗餘項。這種冗餘可以透過使用線性層來減少。其次,它使頻譜的覆蓋範圍可以調整,旨在覆蓋更重要的係數更大的頻率。因此,加入線性層可以進一步提高 QIREN 的擬合效能。

3. Batchnorm 層的作用是加速量子模型的收斂

在前饋神經網路中,資料通常在啟用函式之前透過 BatchNorm 層,這有效地防止了消失梯度問題。類似地,在 QIREN 中,量子電路取代了啟用函式,並在提供非線性方面發揮作用(量子電路本身是線性的,但將經典資料上傳到量子電路的過程是非線性的)。因此,我們在這裡新增了 BatchNorm 層,目的是穩定和加速模型的收斂

實驗結果

我們透過影像表示和聲音表示任務驗證了 QIREN 在表示訊號,特別是高頻訊號方面的優越效能。實驗結果如表 1 所示。QIREN 和 SIREN 在聲音表示任務上表現出相似的表現。儘管這兩個模型的效能似乎是可比較的,但值得強調的是,我們的模型以最少的引數實現了 35.1% 的記憶體節省,並且 SIREN 的收斂需要設定合適的超引數,而我們的模型沒有這種限制。然後,我們從頻率的角度分析了模型的輸出。我們在圖 4 中視覺化了模型輸出的頻譜。很明顯,模型輸出的低頻分佈都接近真實情況。然而,當涉及到高頻分佈時,QIREN 和 SIREN 都擬合得很好,其次是具有隨即傅立葉特徵(RFF)的基於 ReLU 的 MLP。基於 ReLU 和基於 Tanh 的 MLP 甚至缺乏訊號的高頻部分。

圖片

表 1. 模型在訊號表示和影像超解析度任務上的 MSE()。被認為是 SOTA 的模型標有 *。params 表示模型引數量,mem 表示與離散網格表示相比,模型節省的記憶體。

圖片

圖 4. 聲音表示任務中模型輸出的頻譜

QIREN 在影像表示任務中用最少的引數實現了最佳效能,與 SOTA 模型相比,誤差最大減少了 34.8%。為了進一步探索模型的訊號表示能力,我們使用濾波器來分離其輸出的高頻和低頻分量,並分別比較這兩個分量的擬合誤差,結果如圖 5 所示。QIREN 在擬合高頻和低頻分量時始終實現了最低的誤差。

圖片

圖 5. 與基於 Tanh 的 MLP 相比,每個模型的相對誤差。陰影區域表示低頻誤差,而非陰影區域表示高頻誤差。

最新的研究引入了一個突破性的框架將隱式神經表徵擴充套件到影像生成。更具體地說,該框架利用以隨機分佈為輸入的超網路來生成隱式表徵網路的引數。隨後,這些生成的引數被分配給隱式表徵網路。最後,隱式表徵網路以座標為輸入生成影像。採用對抗性方法來確保生成的影像與我們期望的結果一致。在這項任務中,我們採用了這樣一個框架,並建立在 StyleGAN2 的基礎上。

實驗結果如表 2 所示。我們還進一步探索了 QIREN 生成器的一些令人興奮的特性,如圖 6 和 7 所示。

圖片

表 2. 模型在 FFHQ 和 CelebA-HQ 資料集上的 FID 得分。

圖片

圖 6. 開箱即用的超解析度

圖片

圖 7. 有意義的影像空間插值
總結

這項工作不僅將量子優勢融入到隱式神經表示中,而且為量子神經網路開闢了一個有前景的應用方向 —— 隱式神經表徵。值得強調的是,隱式神經表徵還有許多其他潛在的應用,如表示場景或 3D 物件、時間序列預測和求解微分方程。對於一大類對連續訊號建模的任務,我們都可以考慮引入隱式表徵網路作為基本元件。基於本文的理論和實驗基礎,我們可以在未來的工作中將 QIREN 擴充套件到這些應用中,並且 QIREN 有望在這些領域中以更少的引數產生更好的結果。同時,我們為量子機器學習找到了一個合適的應用場景。從而促進量子機器學習社群內進一步的實踐和創新研究。

相關文章