光晶片能否代替電子晶片?破解 AI 「算力荒」

ScienceAI發表於2024-05-21
光晶片能否代替電子晶片?破解 AI 「算力荒」

編輯 | ScienceAI

摩爾定律的描述已經非常快了——計算機晶片每兩年左右就會安裝兩倍數量的電晶體,從而在速度和效率上產生重大飛躍。但深度學習時代的計算需求增長速度更快——這種速度可能不可持續。

圖片

論文連結:https://arxiv.org/abs/2202.05924

國際能源署預測,2026 年人工智慧消耗的電力將是 2023 年的 10 倍,而當年的資料中心消耗的能源將相當於日本一個國家一年的能源消耗。

圖片

報告連結:https://www.iea.org/reports/electricity-2024

「人工智慧所需的[計算能力]每三個月就會翻一番,速度遠遠快於摩爾定律的預測。」 計算硬體公司 Lightmatter 的創始人兼執行長 Nick Harris 表示,「這會破壞公司和經濟。」

最有前景的方法之一是不使用電子來處理資訊(電子在計算領域佔據了 50 多年的主導地位),而是使用光子流(即微小的光包)。近期的研究表明,對於現代人工智慧的某些基礎計算任務,基於光的「光學計算機」可能具有優勢。

劍橋大學物理學家 Natalia Berloff 表示,光計算的發展「為人工智慧等需要高速、高效處理的領域的突破鋪平了道路」。

最佳光學

理論上,光有許多潛在好處。其一,光訊號比電訊號可以攜帶更多資訊——它們有更多的頻寬。其二,光頻率也比電頻率高得多,因此光系統可以在更短的時間內以更少的延遲執行更多的計算步驟。

還有效率問題。除了相對浪費的電子晶片造成的環境和經濟成本之外,它們的執行溫度也非常高,以至於只有一小部分電晶體(所有計算機核心的微小開關)可以隨時處於活動狀態。理論上,光學計算機可以同時進行更多操作,在消耗更少能源的同時處理更多資料。史丹佛大學電氣工程師 Gordon Wetzstein 說:「如果我們能夠利用」這些優勢,「這將帶來許多新的可能性。」

圖片

圖:Nick Harris 創立了一家公司,其晶片使用光子而不是電子。

注意到潛在的優勢之後,研究人員一直在嘗試將光用於人工智慧這個計算需求量很大的領域。例如,在 20 世紀 80 年代和 90 年代,研究人員使用光學系統構建了一些最早的神經網路。Demetri Psaltis 和加州理工學院的兩名同事使用這些早期光學神經網路 (ONN) 之一建立了一個巧妙的面部識別系統。

圖片

論文連結:https://opg.optica.org/ao/abstract.cfm?uri=ao-32-26-5026

他們將一個受試者(實際上是研究人員之一)的影像作為全息圖儲存在光折變晶體中。研究人員使用全息圖來訓練 ONN,然後 ONN 可以識別研究人員的新影像並將他與同事區分開來。

但光也有缺點。至關重要的是,光子通常不會相互作用,因此一個輸入訊號很難控制另一個訊號,而這正是普通電晶體的本質。電晶體也工作得非常好。現在,它們被放置在硬幣大小的晶片上,這是數十年漸進改進的產物。

但近年來,研究人員發現了光學計算的殺手級應用:矩陣乘法。

一些簡單的數學

矩陣或數字陣列相乘的過程是大量重型計算的基礎。具體來說,在神經網路中,矩陣乘法是如何在舊資料上訓練網路以及如何在經過訓練的網路中處理新資料的基本步驟。光可能是比電更好的矩陣乘法媒介。

這種人工智慧計算方法在 2017 年爆發,當時麻省理工學院的 Dirk Englund 和 Marin Soljačić 領導的團隊描述瞭如何在矽晶片上構建光學神經網路。

圖片

論文連結:https://www.nature.com/articles/nphoton.2017.93

研究人員將他們想要相乘的各種量編碼成光束,然後將光束髮送透過一系列改變光束相位(光波振盪方式)的元件,每個相位改變代表一個乘法步驟。透過反覆分裂光束、改變相位、重新組合,可以使光有效地進行矩陣乘法。在晶片的末端,研究人員放置了光電探測器來測量光束並揭示結果。

圖片

圖:Lightmatter 的 Passage 晶片預計將於 2026 年準備就緒,它將電子硬體與基於光的互連相結合。

研究人員教他們的實驗裝置識別口語母音,這是神經網路的常見基準任務。憑藉光的優勢,它可以比電子裝置更快、更有效地完成這一任務。其他研究人員已經知道光有利於矩陣乘法;2017 年的論文展示瞭如何將其付諸實踐。

這項研究「激起了人們對 ONN 的巨大興趣。」康奈爾大學光子學專家 Peter McMahon 表示,「那個人影響力非常大。」

聰明的想法

自 2017 年那篇論文發表以來,隨著各種研究人員提出了新型光學計算機,該領域取得了穩步進展。Englund 和幾位合作者最近推出了一種名為 HITOP 的新型光網路,該網路結合了多項先進技術。最重要的是,它的目標是隨著時間、空間和波長的增加計算吞吐量。

前麻省理工學院博士後、現任職於南加州大學的 Zaijun Chen 表示,這有助於 HITOP 克服光學神經網路的缺點之一:將資料從電子元件傳輸到光學元件需要大量能量,反之亦然。

但 Chen 說,透過將資訊打包到光的三個維度中,它可以更快地透過 ONN 推送更多資料,並將能源成本分散到許多計算中。這降低了每次計算的成本。研究人員報告說,HITOP 可以執行比以前基於晶片的 ONN 大 25,000 倍的機器學習模型。

圖片

論文連結:https://arxiv.org/abs/2401.18050

需要明確的是,該系統仍遠未達到其電子前身的水平。Chen 表示,HITOP 每秒執行約 1 萬億次運算,而先進的 Nvidia 晶片可以處理 300 倍的資料,他希望擴大該技術的規模,使其更具競爭力。但光學晶片的效率令人信服。「我們的目標是將能源成本降低 1000 倍。」Chen 說。

其他小組已經建立了具有不同優勢的光學計算機。2023 年,賓夕法尼亞大學的一個團隊描述了一種新型 ONN,它提供了不同尋常的靈活性。

圖片

論文連結:https://www.nature.com/articles/s41566-023-01205-0

這種基於晶片的系統將鐳射照射到構成電子晶片的半導體部分上,從而改變半導體的光學特性。鐳射有效地對映了光訊號的路徑,從而完成了它執行的計算。這使得研究人員可以輕鬆地重新配置系統的功能。這與大多數其他基於晶片的系統(光學和電子系統)有著明顯的區別,在這些系統中,路線是在製造工廠中仔細制定的,並且很難改變。

圖片

圖:Bhavin Shastri 幫助開發了一種光學神經網路,可以克服不同無線訊號之間的干擾。

該研究的主要作者 Tianwei Wu 說:「我們所擁有的東西非常簡單。我們可以重新程式設計,動態改變鐳射圖案。」 研究人員利用該系統設計了一個成功區分母音的神經網路。

大多數光子系統在構建之前都需要進行訓練,因為訓練必然涉及重新配置連線。但由於該系統很容易重新配置,研究人員在將模型安裝到半導體上後對其進行了訓練。他們現在計劃增加晶片的尺寸,並用不同顏色的光編碼更多資訊,這應該會增加它可以處理的資料量。

即使是在 90 年代建立面部識別系統的 Psaltis 也對這一進步感到印象深刻。「與實際發生的事情相比,我們 40 年前最瘋狂的夢想顯得非常渺小。」

第一縷曙光

儘管光學計算在過去幾年中發展迅速,但它仍遠未取代在實驗室外執行神經網路的電子晶片。論文宣佈光子系統比電子系統工作得更好,但它們通常使用舊的網路設計和較小的工作負載執行小型模型。

加拿大安大略省女王大學的 Bhavin Shastri 表示,許多有關光子霸權的報導資料並不能說明全部情況。「很難與電子產品進行同類比較。」他說,「例如,當他們使用鐳射時,他們並沒有真正談論為鐳射提供動力的能量。」

實驗室系統需要擴大規模才能顯示出競爭優勢。「你需要做到多大才能獲得勝利?」McMahon 問道。答案是:特別大。這就是為什麼沒有人可以與 Nvidia 製造的晶片相媲美。一路上有大量的工程難題需要解決——電子方面已經解決了幾十年的問題。「電子行業一開始就有很大的優勢。」McMahon 說。

一些研究人員認為,基於 ONN 的人工智慧系統將首先在具有獨特優勢的專業應用中取得成功。Shastri 表示,一種有前途的用途是抵消不同無線傳輸之間的干擾,例如 5G 蜂窩塔和幫助飛機導航的雷達高度計。

圖片

論文連結:https://www.nature.com/articles/s41377-023-01362-5

今年年初,Shastri 和幾位同事建立了一個 ONN,可以整理不同的傳輸並實時挑選出感興趣的訊號,處理延遲低於 15 皮秒(15 萬億分之一秒)——不到電子系統所需時間的千分之一,而功耗不到電子系統的 1/70。

但 McMahon 表示,宏偉的願景——一種可以超越通用電子系統的光學神經網路——仍然值得追求。去年,他的團隊進行的模擬顯示,十年內,足夠大的光學系統可以使某些人工智慧模型的效率比未來電子系統的效率提高 1000 倍以上。

「現在很多公司都在努力爭取 1.5 倍的收益。一千倍的好處,那就太神奇了。」他說,「如果成功的話,這可能是一個為期 10 年的專案。」

相關報導:https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-based-chips-help-20240520/

相關文章