速度提升44%,節能153倍,清華使用記憶體計算硬體高效標記資料

ScienceAI發表於2024-12-26
圖片

編輯丨&

對於現在的許多 AI 任務來說,標記資料是一個耗時、勞動密集型且昂貴的過程。深度貝葉斯主動學習 (DBAL) 以指數級方式提高標記效率,從而大幅降低成本。

為了解決 DBAL 需要高頻寬的資料傳輸和機率計算的問題,來自清華大學的團隊提出一種憶阻器隨機梯度 Langevin 動力學原位學習方法。使用憶阻器調製的隨機來學習效率,以此在記憶體計算 (CIM) 框架內實現 DBAL。

他們在基於憶阻器的隨機 CIM 系統上實現了記憶體 DBAL,而與傳統的基於互補金氧半導體的硬體實現相比,全新的方案實現了 44% 的顯著速度提升,並且可以節省 153 倍的能源。

團隊的研究成果以「Deep Bayesian active learning using in-memory computing hardware」為題,於 2024 年 12 月 23 日刊登於《Nature Computational Science》。

圖片

對於耗時、勞動密集型且成本相對高昂的過程,學習的標記效率更高的 DBAL 顯然成為了一種引人注意的問題解決方案。

DBAL

DBAL 通常使用傳統的確定性 von-Neumann 硬體和基於互補金氧半導體 (CMOS) 的晶片實現。訓練中的密集向量矩陣乘法 (VMM) 通常會導致處理器和記憶體之間的資料隨機排序,從而導致大量延遲和能耗。

除此之外,在訓練中經常採用的高斯隨機數會帶來大量延遲與能耗,顯得更為複雜。

相比之下,基於憶阻器陣列的機率計算不僅消除了 VMM 計算過程中這種廣泛的資料移動,而且還利用憶阻器的固有隨機性來有效地生成隨機數。

基於歐姆定律和基爾霍夫當前定律,只需一次並行讀取操作即可實現 VMM 原位計算的同時,憶阻器中離子的隨機運動賦予了電導隨機特性,讀取或程式設計操作能有效地模擬隨機數的生成。在這種操作下,憶阻器陣列可以有效地實現機率 AI 演算法。

DBAL 的迭代學習過程在很大程度上依賴於準確的不確定性捕獲。而對於這種情況想,需要學習大量機率權重的分散性。

圖片

圖 1:DBAL。(圖片來自論文)

面對這項挑戰,團隊提出了一個記憶體 DBAL 框架。透過異地訓練獲得的初始部署憶阻器 BDNN 使用選定的資料進行原位迭代學習以捕獲不確定性。

一種憶阻器隨機梯度朗之萬動力學 (mSGLD) 原位學習方法被提出,該方法使用裝置的隨機性,採用單個調製脈衝以生成高斯隨機數進行權重更新。這種方法將過渡到學習過程的最終結果,其中會使用到裝置讀取的隨機指標。

而在憶阻器 BDNN 的深入學習與預測過程中,一種平滑過渡方法被提出來減輕過度電導隨機性對學習的影響。這個方法使憶阻器 BDNN 能夠在學習和預測過程中有效地捕獲和呈現不確定性。

與傳統的 CMOS 硬體相比,該任務顯示出極大的速度和能效提升。團隊的工作提出了一種使用基於憶阻器的系統實現的高效 DBAL 實現,並展示了貝葉斯方法的基礎高效機率計算。

憶阻器與記憶體

為了分析憶阻器的隨機特性,團隊測量了讀取和調製過程中的電導變化。讀數測試中收集的波動資料可以使用雙指數分佈進行建模,同時憶阻器在電導調製過程中也具有隨機波動。

圖片

圖 2:憶阻器的隨機特性。(圖片來自論文)

與 Lindeberg-Feller 中心極限定理一致,BDNN 中的高斯權重可以使用來自多個裝置的讀取電流進行模擬。於此,團隊提出了基於憶阻器 BDNN 構建的記憶體 DBAL 框架,以使用 ESCIM 系統中的三個裝置來產生高斯權重。

在憶阻器橫杆陣列上部署初始憶阻器 BDNN 模型,權重則使用異地訓練好的小型初始訓練集。在此過程中使用讀取噪聲模型和電導調製模型,使網路能夠學習更適合整合憶阻器陣列的權重分佈。

部署好的憶阻器 BDNN 預測未標記資料集中的資料類別並計算預測不確定性。由於憶阻器單元的可變性引入的權重隨機性,網路預測可以反映讀取電流可變性的分佈。

根據未標註資料集中樣本的預測不確定性,選擇一個不確定性最高的樣本來查詢標籤,並將其合併入資料集。原位學習後,網路繼續計算不確定性,選擇高不確定性樣本並重新訓練,直到達到效能預期或用盡標籤查詢。

機器人資料學習

為了證明所提出的方法的適用性,團隊在機器人的技能學習任務中進行了演示。機器人需要透過訓練 BDNN 模型來建立基礎,以獲得高階澆注技能。但由於資源和時間開銷,學習所需標記資料很難獲取。因此,機器人需要透過儘可能少的標記樣品或嘗試來有效地學習技能,從而最大限度地減少獲取標記資料的成本。

圖片

圖 3:使用記憶體 DBAL 的機器人澆注技能學習任務的示意圖。(圖片來自論文)

實驗的主要目標是透過提出的主動學習方法,訓練 BDNN 使用盡可能少的標記樣本實現高準確性和動作效果。在迴圈了 64 次,生成了 128 個訓練數量集後,ESCIM 系統成功地演示了該任務的記憶體主動學習過程。

團隊還分析了週期間變化對網路效能隨時間推移的影響。該網路隨著時間的推移保持穩定的效能,其準確性水平與原位學習後相似。原因可能是 BDNN 本身可以容忍由週期間變化引起的某些權重變化。

比較了主動學習與被動學習對技能任務的學習表現影響後,資料表明,在相同的查詢樣本數量裡,主動學習的效能優於被動學習。

研究的小結

研究引入了記憶體 DBAL 框架和原位學習方法,兩者都利用了憶阻器調製的隨機特性。這種獨特的方法已被證明是可行與有效。這些結果凸顯了憶阻器技術相對於當前 CMOS 實現的潛在優勢,尤其是在機器人應用的效率和速度。

本次研究也為進一步探索與改進創造了機會。採用特定計算電路或通用處理核心直接與憶阻器陣列整合的晶片可能會替代外部計算機進行處理。這種完全整合的晶片可以實現更高效、更復雜的隨機計算,突破目前機器人和人工智慧領域可以實現的界限。

未來的研究應該在更廣泛的任務和現實世界的環境中驗證此次發現。團隊強調,由於效能與憶阻器特性相關,因此應在未來的工作中探索減輕製造和操作條件變化的策略。

原文連結:https://www.nature.com/articles/s43588-024-00744-y

Github程式碼:https://github.com/YudengLin/Code_ESCIM_Hardware

相關文章