為AI而生,打破儲存牆,佐治亞理工等提出新型嵌入式無電容DRAM
新闻助手發表於2021-02-19
當今計算中最大的問題之一是「儲存牆」,即處理時間與將資料從單獨的 DRAM 儲存器晶片傳送到處理器所花費時間之間的差距。AI 應用的日益普及只會加劇該問題,因為涉及面部識別、語音理解、消費商品推薦的巨大網路很少能容納在處理器的板載記憶體上。在 2020 年 12 月舉行的 IEEE 國際電子裝置會議(IEDM)上,一些研究小組認為:一種新型的 DRAM 可能成為「儲存牆」問題的解決方案。他們表示:「這種新型的 DRAM 由氧化物半導體制成,並內建在處理器上方的各層中,其位長是商用 DRAM 的數百或數千倍,並且在執行大型神經網路時可以提供較大的區域,節省大量能源。」計算機中的 DRAM 儲存單元由單個電晶體和單個電容器製成,即所謂的 1T1C 設計。這種儲存單元在寫入時開啟電晶體,電荷被推入電容器 (1) 或從電容器 (0) 去除;讀取時則會提取並度量電荷(如果有)。該系統速度超級快,價格便宜,並且功耗很小,但它也有一些缺點。首先,讀取時會消耗電容器的電量,因此讀取意味著要將該位寫回到記憶體中。即使不進行讀取,電荷最終也會透過電晶體從電容器中洩漏出來。所有單元都需要定期重新整理以保持資料。在現代 DRAM 晶片中,此操作每 64ms 完成一次。處理器晶片中的嵌入式 DRAM 是以商業的形式完成的,因而存在一些其侷限性。佐治亞理工學院電氣和計算機工程系教授 Arijit Raychowdhury 表示:「單片 1T1C 的設計一直面臨的挑戰是製造電容器以及製造具有超低洩漏的電晶體方面存在困難。」他與聖母大學和羅徹斯特理工學院的研究人員合作開發了新的嵌入式 DRAM。在為邏輯電路構建的製造過程中,很難製造出優秀的電容器。新型嵌入式 DRAM 僅由兩個電晶體制成,沒有電容器,簡稱為 2T0C。之所以可以這樣做,是因為電晶體的柵極是天然的電容器(儘管有些小)。因此代表該位的電荷可以儲存在此處。該設計具有一些關鍵優勢,特別是對於 AI 來說。與由電晶體和電容器組成的普通 DRAM 不同,2T0C 嵌入式 DRAM 由兩個電晶體組成。該位儲存在右側電晶體的電容中,並由左側裝置放置在此處。右側裝置柵極上的電荷意味著電流可以流過它,因此僅由電晶體控制讀取和寫入。Raychowdhury 解釋稱:「其中寫入和讀取涉及不同的裝置,因此可以從 2T0C DRAM 單元讀取資料,而無需破壞資料,不必重寫資料。你所要做的就是檢視電流是否流過其柵極承載電荷的電晶體。如果存在電荷,電晶體將導通,會有電流流過。如果沒有電荷,就將沒有電流流過。」聖母大學 Suman Datta 實驗室的研究生 Jorge Gomez 對此表示:「輕鬆讀取對於 AI 來說至關重要,因為神經網路每次寫入至少要讀取 3 遍。」Raychowdhury 說道:「2T0C 的排列不適用於矽邏輯的電晶體。」由於電晶體的柵極電容太低,並且透過電晶體的洩漏量太高,任何位都會立即流失。因此研究者轉向由非晶氧化物半導體制成的裝置,例如用於控制某些顯示器中畫素的裝置。新型嵌入式無電容 DRAM 具有幾種顯著的特性。具體而言,它們可以驅動大量電流,使得寫入速度更快;當它們關閉時,會釋放少量電荷,使得位使用壽命更長。美國團隊使用摻雜了約 1% 鎢元素的氧化銦作為他們的半導體,簡稱摻鎢氧化銦(IWO)。Raychowdhury 表示,該裝置的電流是「有記錄的氧化電晶體中最好的一些」。該裝置為邏輯運算提供了足夠的讀寫速度,同時截止電流(off current)也很小,比矽的電流小了二至三個數量級。實際上,該團隊必須構建超大版本的裝置,以獲得準確的洩露電流。同樣重要的是,像這樣的氧化物可以在相對低溫環境下進行處理。這意味著由氧化物製成的裝置可以在處理器晶片上方的互連層中構建,並且不會損壞下方的矽器件。此外,在此處構建儲存單元為資料處理矽元件(elements on the silicon)提供了一個直接的高頻寬路徑,從而有效地打破了儲存牆(memory wall)。在對三個常見神經網路的模擬中,該團隊將該技術的單層、四層、八層版本分別與 IBM Power8 處理器中使用的技術 22 奈米 1T1C 嵌入式 DRAM 進行了對比。由於控制 2T0C 嵌入式 DRAM 消耗了處理器上一定數量的邏輯,因此就所有神經網路資料所需的晶片面積而言,僅使用單層儲存器並不能帶來實際的優勢。但是,四層 2T0C DRAM 將嵌入式儲存器所需的晶片面積減少了 3.5 倍,八層 2T0C DRAM 更是減少了 7.3 倍。同樣地,當層數多於 1 時,2T0C 嵌入式 DRAM 在效能上優於 1T1C 嵌入式 DRAM。舉例而言,當提供一平方毫米的四層或八層嵌入式 DRAM 時,ResNet-110 神經網路則從來不需要從晶片外獲取資料。1T1C 設計需要在 70% 左右的時間裡使用晶片外資料,與之不同,2T0C 嵌入式 DRAM 可能會節省大量的時間和精力。比利時微電子研究中心(Imec)的研究人員在國際電子器件會議(IEDM)上推出了一種類似的 2T0C 嵌入式方案,該方案使用銦鎵鋅氧化物作為半導體。Imec 高階科學家 Attilio Belmonte 指出,IGZO 必須在有氧的環境中退火,以修復由氧空位造成的材料缺陷。這樣可以有助於減少 IGZO 中自由電子的數量,進而有助於電流流動,但如果沒有氧氣,裝置就不會像開關那樣起作用。對這種「氧鈍化」的需求對 IGZO DRAM 裝置的設計產生了幾種撞擊效應(knock-on effect),包括所涉及的電介質的選擇和位置。Imec 開發的最佳化裝置將 IGZO 放置於氧化矽的上方,並且頂部是氧化鋁。這種結合方式非常有效地控制了耗盡位的洩露。2T0C 儲存單元的平均停留時間為 200 秒,並且 25% 的儲存單元將它們的位保持了 400 秒以上的時間,是普通 DRAM 單元保持時長的數千倍。在後續研究中,Imec 團隊希望透過使用不同相位的 IGZO 將停留時間延長至 100 小時以上。這樣長的停留時間使得該裝置進入到了非易失性儲存(non-volatile memories)的領域,例如電阻式 RAM 和磁性 RAM。很多研究團隊專注於使用嵌入式 RRAM 和 MRAM 來加速 AI。但是,Raychowdhury 認為 2T0C 嵌入式 DRAM 比它們更有優勢。嵌入式 RRAM 和 MRAM 需要大量電流來寫入,並且就目前而言,電流必須來自處理器矽片中的電晶體,所以節省的空間更少。更糟糕的是,嵌入式 RRAM 和 MRAM 切換速度必定慢於 DRAM。Raychowdhury 補充道,任何基於電荷的事物往往速度更快,至少在寫入過程中是這樣。速度快得多的證據還需要等待處理器上全陣列嵌入式 2T0C DRAM 的構建。並且,全陣列嵌入式 2T0C DRAM 就要到來了!原文連結:https://spectrum.ieee.org/tech-talk/semiconductors/memory/new-type-of-dram-could-accelerate-ai