2024年諾貝爾物理學獎授予了兩位在機器學習領域作出重大貢獻的科學家:美國普林斯頓大學的約翰·J·霍普菲爾德(John J. Hopfield)和加拿大多倫多大學的傑弗裡·E·辛頓(Geoffrey E. Hinton)。以表彰他們利用人工神經網路實現機器學習的奠基性發現和發明。
約翰·霍普菲爾德以其在物理學和生物學領域的貢獻而知名,他建立了一種可以儲存和重建資訊的結構,即著名的Hopfield網路。這種網路可以在受損的情況下保持資訊儲存的能力,對後來的神經網路研究產生了深遠影響。
傑弗裡·辛頓被譽為“深度學習教父”,他對神經網路的研究貢獻巨大,尤其是在反向傳播演算法和深度學習方面。辛頓的工作包括發明瞭玻爾茲曼機,以及對深度信念網路的研究,這些工作為現代深度學習技術奠定了基礎。
霍普菲爾德網路
霍普菲爾德網路(Hopfield Network)是一種聯想記憶神經網路,由約翰·霍普菲爾德(John Hopfield)於1982年提出。它是一種聯想記憶模型,常用於模式識別和記憶儲存等任務。與傳統的前饋神經網路不同,霍普菲爾德網路的節點(神經元)是全連線的,且具有對稱的權重矩陣,意味著連線的權重是相同的雙向值。
霍普菲爾德網路雖然屬於早期神經網路模型,但它的核心思想對大語言模型(LLMs,Large Language Models)等現代神經網路的發展起到了基礎性的影響。
遞迴神經網路啟發了記憶上下文
- 霍普菲爾德網路是遞迴神經網路的早期形式,展示了網路節點的相互連線和狀態更新如何形成聯想記憶和模式儲存的功能。
- 遞迴神經網路(RNN)和其變種(如LSTM、GRU)在自然語言處理任務中具有重要作用,因為它們能夠處理序列資料並保留輸入的上下文資訊。
- 霍普菲爾德網路的狀態收斂和記憶功能為遞迴結構奠定了基礎思想。
聯想記憶與語義關聯
- 霍普菲爾德網路的核心優勢之一是聯想記憶,即透過輸入不完整或有噪聲的模式恢復出完整模式。
- 這種聯想記憶的概念影響了大語言模型中的語義關聯能力。現代大語言模型如GPT系列,會透過大量訓練資料學習語義空間中的模式,並能在面對部分輸入時預測出合理的下文或補全句子。
- 這與霍普菲爾德網路中的模式恢復有相似之處,即從部分資訊中聯想到完整的資訊。
缺點:
- 網路大小是固定的,無法線性擴充套件
- 能夠記住一定數量的固定模式,但其儲存能力有限。當網路儲存的模式過多時,可能會出現混淆或記憶不穩定的情況。
- 難以擴充套件到大規模資料處理。
霍普菲爾德網路結構相對簡單,通常只有一層或少量層,主要目的是將輸入與儲存的模式進行匹配,找到最接近的記憶模式。這種網路大多是全連線的,所有神經元彼此連線,通常不涉及複雜的層次結構或深層網路。其工作原理依賴於能量最小化,透過狀態更新使網路收斂到儲存的模式。
深度學習
深度學習網路通常包含多層結構,網路的每一層提取資料中的不同級別的特徵。
- 輸入層處理原始資料,
- 中間層提取高階特徵,
- 輸出層生成最終的預測或分類結果。
現代深度學習網路可以包含數十到數百層,每層可以包含成千上萬個節點,尤其在大規模任務如影像識別或語言建模中非常常見。
網路訓練透過反向傳播和梯度下降最佳化,而不是像霍普菲爾德網路那樣依賴能量最小化。
深度學習網路透過訓練資料中提取的特徵來“記住”資訊。這種記憶是分散式的,隱含在網路的權重和啟用函式中,而不是顯式儲存在網路某個特定節點。
深度學習依賴反向傳播和梯度下降等最佳化演算法,需要大量資料進行訓練。每一層都透過計算損失函式的梯度來調整權重,以逐步減少模型的誤差。
深度學習需要大規模標註資料來進行有效的訓練。通常,越大的資料集,模型的效能越好,且能更好地泛化。
由於包含大量網路層和節點,深度學習網路的計算複雜度非常高,尤其是大規模神經網路的訓練需要大量計算資源和時間。處理如影像識別和語言建模等任務時,通常需要使用GPU或TPU等加速硬體。
發展軌跡
1982年,約翰·霍普菲爾德(John Hopfield)提出了霍普菲爾德網路,這是一種能夠實現聯想記憶的神經網路,用於儲存和檢索離散模式。
感知器(Perceptron)模型是最早期的神經網路之一,由Rosenblatt在1958年提出。感知器用於二分類問題,但只適合解決線性可分問題。
1、反向傳播演算法
1986年,傑弗裡·辛頓Geoffrey Hinton等人提出了反向傳播演算法(Backpropagation),這是訓練**多層感知器(MLP)**的重要方法,標誌著人工神經網路進入了一個新的階段。反向傳播透過梯度下降法更新網路權重,使得更深層的神經網路得以有效訓練。
這段時間為後來的深度學習奠定了基礎,主要是網路結構和訓練演算法的探索。
在20世紀80年代到90年代,神經網路的研究一度陷入瓶頸,尤其是由於計算能力不足和資料量限制,加深網路層數容易導致梯度消失或梯度爆炸等問題。大多數人對更深層的網路持懷疑態度。
2006年,辛頓等人提出了深度信念網路(DBN, Deep Belief Networks),這是一種基於無監督學習的深層網路,可以逐層預訓練,然後進行微調,緩解了梯度消失問題。此時,研究者重新意識到深度神經網路的潛力。
隨著計算能力的提升(尤其是GPU的發展)和大資料的可用性,神經網路的規模和複雜性顯著增加,深度學習開始展現出巨大的應用潛力。
2、RNN遞迴神經網路
卷積神經網路(CNNs)成為了影像處理領域的突破性架構,尤其是2012年,AlexNet在ImageNet競賽中取得了重大勝利,標誌著深度學習的崛起。CNNs 的層次結構能夠自動學習影像特徵,並透過多層提取出從低階到高階的特徵資訊。
對於序列資料的處理,**遞迴神經網路(RNNs)**成為了主流選擇。RNN透過迴圈機制保持了對序列資訊的依賴,適合處理時間序列資料,如語音識別、語言翻譯等。
RNN擴充套件問題:RNN在訓練過程中依賴於反向傳播演算法(Backpropagation Through Time, BPTT),這種演算法會隨著時間步回傳梯度,從而更新網路權重,然而,RNN的隱藏狀態是逐個時間步依賴的,當序列很長時,梯度在多個時間步上逐步傳播,這會導致梯度的以下兩個極端現象:
- 梯度消失:當梯度反向傳播透過多個時間步時,梯度逐漸趨於0。這意味著在訓練中,較早的時間步對網路的權重更新幾乎沒有貢獻,導致網路難以記住長時間前的輸入資訊。
- 梯度爆炸:相反,如果網路權重的初始值或更新過大,梯度可能會指數級增長,導致數值不穩定,使得權重更新過大,模型訓練變得不可靠。
NN在處理長序列時,容易出現梯度問題,從而使得網路難以學習長距離依賴的特徵,例如人類語言中依賴於上下文的特徵。
RNN遞迴迴圈結構依賴於前一個時間步的計算結果,無法進行並行處理。這意味著每個時間步的計算必須依次進行,無法像**卷積神經網路(CNNs)**那樣在不同層之間平行計算。這種順序依賴性使得訓練長序列時的計算成本非常高,特別是在處理大規模資料時,計算效率極低。
由於RNNs 在長序列中會遇到梯度消失的問題,長短期記憶網路(LSTM)和門控迴圈單元(GRU)相繼被提出。這些改進使得網路可以處理更長的依賴關係,成為當時自然語言處理中的標準架構。
3、Transformer架構
2017年,由Vaswani等人發表的論文**《Attention is All You Need》提出了全新的Transformer架構**,這是自然語言處理領域的一個重大突破。
與之前的RNN和LSTM不同,Transformer摒棄了遞迴結構,完全依賴於注意力機制(Attention Mechanism),尤其是自注意力機制(Self-Attention)。這種機制可以直接處理輸入序列中的所有元素,並且允許模型平行計算,極大地提高了訓練效率。
Transformer的自注意力機制可以處理整個輸入序列,與RNN不同,不依賴前後序列的順序,極大地提高了對長序列的處理能力。
由於Transformer擺脫了遞迴迴圈結構,可以進行平行計算,從而加快了訓練速度,尤其在大規模資料上的表現非常突出。
儘管Transformer在架構上與傳統的遞迴迴圈神經網路(RNN)不同,它仍依賴反向傳播來最佳化模型中的權重。Transformer的關鍵模組包括自注意力機制(Self-Attention)和前饋神經網路(Feedforward Neural Network),這些模組仍然透過反向傳播來調整內部的權重。
獲獎者貢獻
1、約翰·J·霍普菲爾德(John J. Hopfield)被引用最多的論文:該研究探索了大量簡單的、相互連線的神經元可能產生的計算特性。它的重點是研究如何集體行為在這樣的神經網路可以導致有用的計算能力,
2、傑弗裡·辛頓提出了反向傳播演算法,在集體網路結構中實現反向傳播,調整權重。
他們利用物理學來尋找資訊中的模式
機器學習的發展在過去十五到二十年裡呈爆炸式增長,它利用了一種稱為人工神經網路的結構。
人工神經網路使用整個網路結構來處理資訊。其靈感最初來自於對大腦工作原理的理解。20 世紀 40 年代,研究人員開始圍繞大腦神經元和突觸網路背後的數學原理進行推理。另一個謎題來自心理學,這要歸功於神經科學家唐納德·赫布的假說,即學習是如何發生的,因為神經元之間的聯絡在協同工作時會得到加強。
後來,人們嘗試透過建立計算機模擬的人工神經網路來重現大腦網路的功能。在這些神經網路中,大腦的神經元由賦予不同值的節點模擬,突觸由節點之間的連線表示,這些連線可以變得更強或更弱。唐納德·赫布的假設仍然被用作透過稱為訓練的過程更新人工網路的基本規則之一。
20 世紀 60 年代末,一些令人沮喪的理論結果讓許多研究人員懷疑這些神經網路永遠不會有任何實際用途。然而,人們對人工神經網路的興趣在 20 世紀 80 年代被重新喚醒,當時有幾項重要的想法產生了影響,其中包括今年獲獎者的研究成果。
聯想記憶
透過搜尋相似單詞來找到正確單詞的過程讓人想起物理學家約翰·霍普菲爾德 (John Hopfield) 於 1982 年發現的聯想記憶。
霍普菲爾德網路可以儲存模式,並有一種方法可以重新建立這些模式。當網路獲得不完整或略有失真的模式時,該方法可以找到最相似的儲存模式。
霍普菲爾德之前曾利用他的物理學背景探索分子生物學的理論問題。當他被邀請參加一次神經科學會議時,他接觸到了對大腦結構的研究。他對所學內容非常著迷,並開始思考簡單神經網路的動態。當神經元共同作用時,它們會產生新的強大特性,而這些特性對於只關注網路各個組成部分的人來說是無法察覺的。
1980 年,霍普菲爾德離開了普林斯頓大學,他的研究興趣讓他遠離了物理學同事們的研究領域,他搬到了美國大陸的另一邊。他接受了加州理工學院(位於南加州帕薩迪納)的化學和生物學教授職位。在那裡,他可以免費使用計算機資源進行實驗並發展他的神經網路思想。
然而,他並沒有放棄物理學的基礎,物理學激發了他去理解由許多小元件共同作用的系統如何產生新的有趣現象。他特別受益於對磁性材料的瞭解,這些材料由於原子自旋而具有特殊的特性——這種特性使每個原子都成為一個微小的磁鐵。相鄰原子的自旋相互影響;這可以形成自旋方向相同的域。他能夠利用描述自旋相互影響時材料如何發展的物理學,建立一個具有節點和連線的模型網路。
- Hopfield 網路的程式設計方法是將影像輸入到節點,節點被賦予黑色 (0) 或白色 (1) 的值。然後使用能量公式調整網路的連線,以便儲存的影像獲得較低的能量。
- 當另一個模式被輸入到網路中時,有一個規則是逐個檢查節點,並檢查如果該節點的值發生變化,網路是否具有較低的能量。
- 發現如果黑色畫素變為白色,能量就會降低,它會改變顏色。
- 這個過程一直持續到不可能找到任何進一步的改進。當達到這一點時,網路通常會重現它所訓練的原始影像。
為什麼不直接儲存影像本身並將其與正在測試的另一幅影像進行比較,但 Hopfield 的方法很特別,因為可以同時儲存多張圖片,並且網路通常可以區分它們。
霍普菲爾德將搜尋網路中儲存的狀態比作將球滾過山峰和山谷,摩擦力會減慢球的運動速度。如果球掉落在某個特定位置,它將滾入最近的山谷並停在那裡。如果網路獲得的模式接近於已儲存的模式之一,它將以同樣的方式繼續向前移動,直到它最終到達能量景觀中的山谷底部,從而找到其記憶中最接近的模式。
使用十九世紀物理學進行分類
當霍普菲爾德發表關於聯想記憶的文章時,傑弗裡·辛頓正在美國匹茲堡的卡內基梅隆大學工作。他之前曾在英格蘭和蘇格蘭學習過實驗心理學和人工智慧,他想知道機器是否能學會以類似於人類的方式處理模式,找到自己的類別來對資訊進行分類和解釋。
辛頓與他的同事特倫斯·塞諾夫斯基一起從霍普菲爾德網路開始,並利用統計物理學的思想對其進行擴充套件,構建出了一些新的東西。
統計物理學描述的是由許多相似元素組成的系統,例如氣體中的分子。追蹤氣體中所有單獨的分子是困難的,甚至是不可能的,但可以將它們作為一個整體來考慮,以確定氣體的總體特性,如壓力或溫度。氣體分子以不同的速度在其體積中擴散,並仍然具有相同的集體特性,這有很多潛在的方式。
可以使用統計物理學分析各個元件可以共同存在的狀態,並計算出它們發生的機率。有些狀態比其他狀態更有可能發生;這取決於可用能量的數量,這在 19 世紀物理學家路德維希·玻爾茲曼 (Ludwig Boltzmann) 的一個方程中有所描述。Hinton 的網路利用了該方程,該方法於 1985 年以引人注目的玻爾茲曼機 (Boltzmann machine)的名稱發表。
識別同一型別的新示例
玻爾茲曼機通常與兩種不同型別的節點一起使用。資訊被饋送到一組節點,這些節點稱為可見節點。其他節點形成隱藏層。隱藏節點的值和連線也對整個網路的能量有貢獻。
- 該機器透過應用規則來執行,每次更新一個節點的值。最終,機器將進入一種狀態,其中節點的模式可以改變,但整個網路的屬性保持不變。
- 然後,每個可能的模式將具有特定的機率,該機率由網路能量根據玻爾茲曼方程確定。
- 當機器停止時,它已經建立了一個新的模式,這使得玻爾茲曼機成為生成模型的早期例子。
玻爾茲曼機可以學習——不是透過指令,而是透過給出的例子。它透過更新網路連線中的值進行訓練,以便在訓練時輸入可見節點的示例模式在機器執行時具有最高的出現機率。如果在訓練過程中多次重複相同的模式,則該模式的機率甚至更高。訓練還會影響輸出與機器訓練的示例相似的新模式的機率。
經過訓練的玻爾茲曼機能夠識別出它之前未見過的資訊中的熟悉特徵。想象一下,當你遇到朋友的兄弟姐妹時,你立刻就能看出他們一定是親戚。同樣,如果一個全新的示例屬於訓練材料中的某個類別,玻爾茲曼機也能識別它,並將其與不相似的材料區分開來。
在其原始形式中,波爾茲曼機效率相當低,需要很長時間才能找到解決方案。當它以各種方式開發時,事情變得更加有趣,而欣頓一直在探索這一點。後來的版本已經變得稀疏,因為一些單元之間的連線已被移除。事實證明,這可能會使機器更有效率。
波爾茲曼機通常用作大型網路的一部分。例如,它可以根據觀眾的喜好推薦電影或電視劇。
由於物理學為機器學習的發展貢獻了工具,因此有趣的是,物理學作為一個研究領域也受益於人工神經網路。機器學習長期以來一直應用於我們可能熟悉的領域,從以前的諾貝爾物理學獎中可以看出。其中包括使用機器學習來篩選和處理發現希格斯粒子所需的大量資料。其他應用包括降低碰撞黑洞引力波測量中的噪聲,或尋找系外行星。
網友質疑
1、圖靈獎秒變物理獎
深度學習教父Geoffrey Hinton榮獲諾貝爾物理學獎!
物理學已經沒有創意了?諾貝爾委員會剛剛將物理學獎頒給了一位電腦科學家!這說明了現代物理學的現狀如何?
儘管 20 世紀上半葉物理學取得了許多突破,但很明顯,當代物理學的成果要少得多。
電腦科學是科學的新前沿嗎?
這個獎項可能證明電腦科學不僅僅是編碼;它是新的科學遊樂場,在這裡可以測試突破性的理論並誕生創新。
電腦科學現在是科學發現的中心。
2、霍普菲爾德作為一名物理學家和物理學領域做出了傑出的工作,但傑弗裡·辛頓從未以物理學家的身份工作過,充其量只是將物理學中的一些現有事物應用到認知科學用例中。
布萊克或斯科爾斯獲得物理學獎而不是經濟學獎,因為他們著名的方程式可以改寫成薛定諤方程形式。
3、一個物理學家如果只把數學用在物理上,是得不到數學獎的。
4、很驚訝 Terry Sejnowski 沒有被包括在內,考慮到這次物理獎似乎是為霍普菲爾德網路和玻爾茲曼機而設的,而 Terry 在後者中發揮了重要作用。
5、霍普菲爾德網路和玻爾茲曼機是被廣泛接受的神經網路知識嗎?我認識 Rosenblatt、Perceptron 等,但我從未聽說過霍普菲爾德網路和玻爾茲曼機在AI歷史上佔有重要地位。
我讀過的描述都是數學的,重點是具有神奇反向傳播的計算圖(坦率地說,這只是記憶中間計算)。這些文字描述還不遺餘力地阻止使用“突觸”之類的術語,而是使用“單位”。
6、波爾茲曼機在深度學習的早期就已存在。這是一種巧妙的破解方法,可以逐層訓練深度網路,並使用有限的資源。
每一層的訓練方式與自動編碼器的編碼器部分類似。這樣,逐層轉換就不是隨機的,而是大致保留了一些原始資料屬性。到目前為止,訓練都是在沒有使用標記資料的情況下進行的。完成此訓練階段後,您的網路將獲得非常好的初始化,並可以根據您的任務和目標標籤對其進行端到端的訓練。
如果我沒記錯的話,神經層的輸出是機率性的。因此你不能簡單地使用反向傳播來學習權重。
7、我覺得這次的獎項有點奇怪,因為它關注的是霍普菲爾德網路和玻爾茲曼機。特別選擇這兩種架構似乎有點武斷。此外,帕裡西在2021 年因自旋玻璃而獲獎。霍普菲爾德網路非常相關。他們本可以將霍普菲爾德和辛頓也包括在內,這樣看起來會更連貫。
令人擔憂的是,最近諾貝爾獎委員會似乎忽視了基礎廣泛的理論貢獻。
8、我同意霍普菲爾德網路和波爾茲曼機的選擇令人驚訝地隨意。這就像他們想為神經網路的某個人頒發獎項,但必須從他們自己的領域內挑選代表發展的人,這限制了選擇範圍。
9、霍普菲爾德網路和玻爾茲曼機本質上是“統計力學的創造性應用”。我是一名礦物物理學家,現在從事機器學習工作,我絕對認為整個領域都是應用統計力學
10、許多機器學習都深受物理學家(例如玻爾茲曼機)、語言學家(例如最最佳化理論)、計算生物學家(例如進化樹)、電氣工程師(例如克勞德·夏農)等人的基礎研究的影響。
機器學習(ML)是一個多學科交叉的領域,它的發展受到了來自不同學科的理論和方法的深刻影響。以下是一些重要的例子:
- 物理學:物理學家對機器學習的貢獻是基礎性的。例如,Boltzmann Machines(玻爾茲曼機)就是由物理學家John J. Hopfield和Geoffrey E. Hinton等人受到統計物理中玻爾茲曼分佈的啟發而開發的。霍普菲爾德網路是一種能夠儲存和重建影像和其他型別的資料模式的聯想記憶網路。
- 語言學:語言學家如Paul Smolensky對機器學習也有重要貢獻。他的研究集中在將符號計算和神經網路計算整合起來,用於模擬人類大腦中的語言和推理過程。他的工作對語言理論、神經網路理論和認知科學的基礎哲學都有貢獻。
- 計算生物學:計算生物學家如Stuart Russell和Tandy Warnow在進化樹(Phylogenetic Trees)的研究中,使用計算方法來推斷物種之間的進化關係。這些方法在生物學研究中非常重要,並且對機器學習演算法的發展也有啟發作用。
- 電氣工程:電氣工程師如克勞德·夏農Claude Shannon對資訊理論的貢獻為現代通訊和資料壓縮技術奠定了基礎,這些技術對機器學習中的資料處理和傳輸至關重要。