論文:TransformingBell’s Inequalities into State Classifiers with MachineLearning
論文地址:https://www.nature.com/articles/s41534-018-0081-3
物理背景
糾纏態 (entangledstate) 是量子力學預言的一種疊加態,最早是為了批判量子力學所蘊含的哲學思想,而由愛因斯坦等三名科學家於 1935 年首先提出的概念。它起初被稱為 EPR 佯謬,後來薛定諤首先提出了「糾纏」的術語。
量子力學預言,當兩個粒子糾纏在一起時,測量其中一個,那麼另一個粒子的狀態會在同一瞬間發生改變,即使二者相隔非常遠。換言之,測量這一操作的「影響」傳遞速度是無窮大。愛因斯坦覺得這種「幽靈般的超距作用」不應該存在,量子力學理論是有問題的(不完備)。
為了驗證愛因斯坦的想法,約翰·貝爾於 1964 年提出了一種實驗方案,後來演化出了多種版本。簡單地說,這些方案試圖將各個粒子在不同方向上的測量結果做線性組合,得到一個或多個不等式。一旦測量結果違背任意一個不等式,則可說明粒子間確實存在糾纏。這些不等式都被稱作「貝爾不等式」(Bell’s inequalities)。
此後一系列違背貝爾不等式的實驗結果表明,糾纏確實存在,量子力學並沒有錯。
如今,糾纏已成為量子資訊領域的核心資源,它在量子計算,量子隱形傳輸和量子通訊等領域有廣泛的用途。如果現在有人聲稱造出了一臺量子計算機,那麼要想得到學術界的認可,首先需要提供證據說明:這臺機器的確能夠生成糾纏態。
關於糾纏,至今很多基礎問題仍然沒有解決。一般地,給定量子系統的所有資訊(密度矩陣),判斷它們是否糾纏在一起,就是一個尚未被完全解決的難題,即使系統只包含 3 個粒子。以下未經特殊說明,粒子都是指 qubit。qubit 意味著每次測量結果只有兩種可能。
接下來,我們將具體介紹貝爾不等式,然後從神經網路 (Artificial Neural Network, ANN) 的角度出發,探索它與不等式之間的聯絡,並重新審視「糾纏態判定」這一問題。
貝爾不等式是什麼?
這裡介紹貝爾不等式的一種:CHSH 不等式。假設 Alice 和 Bob 手中各有一個粒子, 他們分別從兩個方向對自己手中的粒子進行測量(measure),如下圖所示:
注意這裡的 a a’和 b b’既表示測量方向,也表示測量結果。結果取值只有兩種可能,記為+1 或-1。將測量結果拼在一起可以得到 CHSH 不等式(注意是兩個不等式,因為有兩邊):
如果每次測量都能得到確定的結果,那可以將四個測量結果共 16 種情況分別帶進去驗證,不等式全部成立。
實際情況是,測量得到的結果是隨機的,而且測量可能會導致被測量粒子的狀態發生改變。因此在實驗時,Alice 和 Bob 需要各自測量大量的粒子(成對的糾纏粒子),每個粒子只測一次(只從一個方向測),測完就扔掉。最後計算的是上述不等式的平均值。
只要兩人離得足夠遠,那麼根據愛因斯坦的想法,Alice 和 Bob 無論怎樣操作,在較短時間內都無法影響對方的測量結果。那麼,可以假定兩人各自測量時結果以某種確定機率分佈得到 1 或者 -1。但不管機率分佈是什麼,結果都應該滿足貝爾不等式,因為對於每一種特定情況都滿足,它們的平均值當然也滿足。
然而實驗結果確實可能違背貝爾不等式!這樣一來就說明了一點,Alice 和 Bob 的粒子即使相隔非常遠,彼此之間也能影響對方。這種影響的傳遞速度超越了光速(非局域性)。
為了讓讀者理解什麼叫超距作用,這裡舉一個例子。我們不妨假設,Alice 比 Bob 先測,Alice 測量 a 或 a’時永遠得到 1,Bob 測量 b 時也永遠得到 1。但當 Alice 測量 a 時,Bob 手裡對應的粒子會在同一瞬間「感應到」這個測量,並將 b’設為-1(超距作用),Alice 測量 a’時,b’會設為 1,這樣 ab-ab’+a’b+a’b’=4,違背了 CHSH 不等式。
當然,這個例子並不真實(違背了量子力學),這裡只是為了方便讀者理解「超距作用會導致違背貝爾不等式」而提出的一種假想。
如果用綠色表示糾纏態區域,藍色表示可分態(separable state,指不糾纏的態)區域,任何單個貝爾不等式可以想象成一條直線,如圖所示:
總而言之,貝爾不等式提供了一種實驗方案,實驗結果違背它則可確定「超距作用」的存在。用量子力學的語言來說,違背貝爾不等式意味著粒子的波函式是糾纏態,反之則無法確定其是否糾纏。
神經網路是什麼?
這裡以單隱藏層神經網路(上圖)為例。隱藏或輸出層的任何一個網路節點所做的事情,是帶權重的加法操作,後跟一個非線性的啟用(activate)函式。
為簡單起見,下面來看一個沒有隱藏層的神經網路,也被稱作感知機(perceptron)。見下圖:
在輸出層中我們使用了 sigmoid 函式作為啟用函式,從而將任意實數對映到 0-1 之間。根據輸出值是否小於 0.5 將輸入分為兩類,這個數有時被解釋為機率。當然,就算不加 sigmoid 函式,一樣可以根據輸出值是否小於 0 來分類。加它只是為了便於後面訓練。接下來所有的神經網路,輸出層都會有 sigmoid 函式,不再另作說明。
神經網路與不等式的聯絡
感知機與單一線性不等式是等價的模型,或者說,不等式可以編碼到感知機上。如下圖所示(<>表示測量的期望值):
這裡不等式的權重,即 1 -1 11 2 對應於感知機的權重。這裡只寫了 CHSH 不等式的一半。輸出小於 0(sigmoid 輸出小於 0.5)則確定是糾纏態,反之則無法確認是否糾纏。
根據之前的介紹,貝爾不等式有多種形式。光是 CHSH 不等式就可以寫出多個變種來(比如將不等式種 aa’ 對調,bb’ 對調)。只要違背其中之一就可以確認是糾纏態。那這些不等式能否一次性編碼到一個神經網路中呢?答案是肯定的,只需要加上隱藏層。此時「隱藏層」可以視為「不等式」的組合,見下圖:
如上圖所示,這裡只畫了 3 個貝爾不等式,它們可以編碼到 3 個隱藏單元上。每個單元處理一個不等式。
隱藏層的啟用函式一律採用 ReLU(Rectified Linear Units,可譯作斜坡函式,表示式是 max(0,x))。在遵守所有不等式的情況下,每一個隱藏單元輸出 0,最終的輸出是一個定值。反之,隱藏單元會輸出違背貝爾不等式的值,從而影響到最後的輸出。
到此為止,我們說明了如何將任意多組不等式編碼到一個神經網路上,從而將「遵守所有不等式」和「違背至少一個不等式」的輸入分成兩類。根據量子資訊理論(witness 完備性定理),每一個糾纏態,都存在一個 witness 不等式, 使該糾纏態違背它,而所有可分態都遵守它,此時稱該糾纏態被該 witness「探測」到了。所有的 witness 不等式都依賴於一組固定的測量結果(features)。witness 不等式可以探測所有糾纏態,而貝爾不等式針對的是隻能用「超距作用」來解釋的現象(即「非局域態」,它是糾纏態的子集)。貝爾不等式可以看作 witness 的特例。
需要強調一點,無論是違背 witness 還是貝爾不等式,都只是成為糾纏態的充分不必要條件。使用一個線性不等式是遠遠不足以將所有糾纏態都探測到的,這是必須使用隱藏層的原因。只要隱藏層足夠大,單層神經網路原則上可將所有可分態和任意多組糾纏態區分開,只需在每一個隱藏單元和輸入層的連線上編碼一個 witness 不等式即可。
然而現在有兩個問題:
1) 雖然理論上編碼 witness 後,能夠得到一個通用的糾纏-可分態分類器神經網路,但我們並不知道怎麼去尋找 witness,只是知道它理論上存在。
2) 原則上無窮多個 witness,或者說有無窮多個隱藏單元的神經網路可以將所有糾纏態和所有可分態全部區分開。能不能用有限個隱藏單元以較高機率做到這一點?這聽起來像是要畫足夠多的直線框一個圓一樣,似乎可行,但具體怎麼操作?說到底還是怎麼找 witness 的問題。
這兩個問題引出了本文的另一個主題:機器學習。它是近兩年很火的人工智慧背後的核心技術。機器學習的核心思想是試圖透過以往經驗或資料去自動改進模型引數,它有三個主要分支:有監督學習(supervised learning), 無監督學習(unsupervised learning)和增強學習(reinforcementlearning)。有監督學習是目前最成熟,工業界使用最廣泛的機器學習方法。本文用它來訓練不等式,並且數值驗證了它們的確具備 witness 的特性。
機器學習不等式
一般來說,有監督學習可以理解成函式擬合。它只關注能否找到一組引數(這裡是神經網路的權重),使得模型(神經網路)的輸出儘可能接近理想的輸出(即「標籤」),這裡的標籤是「糾纏態」和「可分態」,分別用 0 和 1 表示。大多數情況下有監督學習學到的引數並不被關注。但這裡我們既關注學習的正確率,也關注學習到的引數是否可以解釋成 witness 不等式。
接下來還有一個重要問題,如何獲取標籤?我們剛才提到,找到了 witness 就能確認是糾纏態,但現在我們並不清楚 witness 是否存在以及如何去找,所以只能用別的方法去得到標籤。在知道密度矩陣的前提下,可以透過 Positive Partial Transpose (以下簡稱 PPT) 判據來判斷是否糾纏。對於 2-qubit 系統或者 qubit-qutrit 系統來說,PPT 判據是充分必要的。更一般的情況下沒有解析方法可以用來打標籤,只能考慮用數值方法(如 SDP)。
這裡我們針對 2-qubit 系統,採用 PPT 判據來打標籤。過程如下:已知系統密度矩陣,在某個子空間(第一個或第二個 qubit 系統)下進行偏轉置,求偏轉置後的矩陣的最小本徵值 λmin。λmin 小於 0 時系統一定是糾纏態,而 λmin 大於或等於 0 時一定是可分態。順帶一提,對於糾纏態,λmin 的絕對值也被叫做負度(negativity),是衡量糾纏度大小的指標之一。
有了打標籤的方法,接下來是資料採集。我們採用標準的方法生成大量的隨機密度矩陣 ρrand:
這裡的 σ 是指每個元素實部虛部都服從正態分佈的隨機矩陣,† 表示「轉置並取共軛」。
用這種方法,我們生成 3,000,000 個隨機密度矩陣,透過 PPT 判據計算 λmin,其分佈如下圖所示:
可以發現,大部分的 λmin 都集中在 0 附近,這意味著大部分資料都處於糾纏態和可分態的邊緣地帶,大約 1/4 的資料為可分態,3/4 的資料為糾纏態。為了使參與訓練的糾纏態-可分態數量相等,我們僅採用紅色區域的資料進行模型的訓練(train)。之後按相同方法重新生成 300,000 個隨機矩陣,全部用於測試(test),即檢驗模型的好壞。測試結果如下圖所示(本文出現的所有正確/錯誤率(accuracy/error rate)均為測試集上的結果):
藍色和綠色分別代表糾纏態和可分態。左圖表明,隨著隱藏層加大,二者的正確率都會有所提高。必須指出的是,正確率的指標是不足以反映出分類器的好壞的,因為正確率很大程度上取決於資料本身是否處於糾纏態和可分態的邊緣處。為了體現這一點,我們畫了右圖,考察不同的 λmin 與錯誤率的關係,並發現大部分情況下只有當 λmin 處於 0 附近時(即糾纏-可分態的邊緣處)才會出錯。
以上結果表明,採用機器學習訓練通用糾纏-可分態分類器是可行的,不過上述結果並沒有說明機器學習的優勢,畢竟 PPT 可以做到完美,而機器學習只能無限接近完美。但是別忘了,我們的目的,是要學習 witness 不等式。我們希望在 2-qubit 系統下完成以下任務:尋找足夠多的 witness,將所有可分態和所有糾纏態區分開。能否用機器學習的方法(至少近似地)做到這一點呢?問題的關鍵在於隱藏層的輸出。我們以 10000 個隱藏神經元的模型為例來說明。
首先,用數學語言回顧一下前面說的神經網路。若輸入為 vec{x}, 隱藏層 vec{x1} 可以用以下公式計算:
這裡σRL 是針對每一個神經元的 ReLU 函式。最終輸出為 y:
這裡的σS 是 sigmoid 函式:
根據之前的編碼過程,只要 W2 的所有神經元都是負數,就可以讓輸入的糾纏態違背的所有不等式都導致最終輸出減小,從而將該糾纏態與所有可分態區分開。如果 W2 的某一個神經元等於 0,那麼它對應的不等式(隱藏神經元)可以去掉,因為它對最終輸出無影響。
那麼,訓練得到的 W2 的分佈又如何呢?讓我們畫一個直方圖來分析一下:
可以看出,和我們之前的編碼一致。大部分都是負數。這裡有很多神經元(元素)幾乎為 0,從量子資訊的角度看,這意味著該模型還有進一步壓縮的空間。我們把大於 -0.1 的神經元的直方圖示記為橙色。
來看看所有隱藏層輸出的平均值。根據之前的編碼過程,如果輸入為可分態,該值為 0,對於糾纏態該值大於 0。訓練的結果很好地匹配了這一點,見下圖中央部分:
該圖上半部分是所有隱藏神經元的平均值,下半部分是去掉橙色部分(W2 元素大於 -0.1)對應的隱藏神經元之後的平均值。後者更能體現出可分態和糾纏態的區別。
上述結果說明,機器學習到的「不等式」從數值上看確實具有 witness 不等式的特點。
我們的貢獻
本文討論瞭如何利用有監督學習的方法,將神經網路訓練為糾纏-可分量子態分類器。這種方法也可以用於訓練其它量子態分類器。
我們首先論述瞭如何利用單隱藏層神經網路來刻畫輸入是否違背多組線性不等式中的至少一個,從而從理論上論證了神經網路作為糾纏-可分態分類器的通用性。我們首次提出了利用機器學習來尋找 witness 不等式,從而描述糾纏-可分態的分介面的方案,並給出了數值結果。
我們還探討了利用機器學習來節省測量資源的可能性,並給出了幾個例子(限於篇幅,本文未作討論)。
本文利用量子力學的線性特性與神經網路運算的聯絡,展示了量子力學和機器學習之間可以如何融合。這項技術為未來量子計算機的有效性判定指出了一條方向。
最後,本論文提出的模型此前已經被上海交通大學金賢敏研究團隊實驗證實了其有效性,相關成果發表在國際物理學權威期刊《物理評論快報》上。機器之心對此進行了報導。
參見:前沿 | 上交大&南科大最新 PRL 論文:成功用機器學習實現量子態分類器
量子態分類器實驗裝置。