說到人工智慧硬體,我們向來事無鉅細。WikiChip密切關注的一家公司是Mythic。這家公司還沒有完全公開他們的架構和產品,但一些細節已經開始慢慢浮出水面。在最近的人工智慧硬體峰會上,該公司的創始人兼執行長Mike Henry)紹了該晶片的最新情況。這家位於奧斯汀的初創公司由Mike Henry和Dave Fick於2012年創立,最近完成了7000萬美元的B輪融資,總融資額剛剛超過8500萬美元。如今,公司員工已增至110人。Mythic是一家模擬公司。但是,在我們探討細節之前,必須指出,它們目前僅專注於推理,無論是在資料中心還是在邊緣。到2024年,這兩個市場的TAM(Total Available Market總體有效市場)預計將達到250億美元,這就是為什麼這裡有如此多的關注點的原因。從長遠來看,Mythic計劃針對大眾市場的消費品和汽車產品。隨著模型準確性的提高,其大小也會隨之增加。如今,模型達到了數億個引數,甚至達到數十億。最重要的是,通常實時地需要確定性行為,例如一致的幀速率和延遲。這就是Mythic的作用。Mythic的論點很簡單:將足夠的儲存與大量平行計算單元打包在晶片上,以最大化記憶體頻寬並減少資料移動的能力。但是有一個轉變——這就是Mythic的原始方法的閃光點——該公司拋棄了傳統的SRAM,轉而使用更密集的快閃記憶體,此外,Mythic還計劃在模擬環境下直接在記憶體中進行本地計算。但是為什麼是快閃記憶體?答案很簡單:因為它密度大,功耗低,而且便宜,幾乎比SRAM的密度大兩個數量級。理論上,Mythic的晶片更像記憶體,而不是傳統的CMOS。從更長的路線圖來看,隨著SRAM bit cell的擴充套件變得越來越困難,它帶來的好處也越來越深遠。總的來說,從每美元的效能、每單位成本的密度和每瓦特的效能來看,這是一個潛在的巨大勝利。
多年來,我們看到了一大堆路線圖,當他們開始談論未來10年的時候,很容易忽視它。但對Mythic來說,有一些不同之處。值得特別指出的是,目前Mythic正在研究40奈米的嵌入式快閃記憶體。他們有一個相當清晰的28nm和22nm的路徑,因此,粗略地說,這個圖的一半是基於今天已經發布的現有節點。
Mythic公司的執行長Mike Henry似乎相信他們可以繼續這樣做,但是儘管正在進行一些工作以繼續擴充套件到16/14奈米節點,還不清楚它是否會上市。許多業內人士認為,嵌入式快閃記憶體在22奈米的時候遭遇了瓶頸。在與Mythic的一次簡短交談中,他們告訴我們,他們並沒有與嵌入式快閃記憶體結合,如果其中一項新興技術(如多位ReRAM、PCM或NRAM)作為一種強大的替代技術出現,他們肯定會考慮遷移到這種技術。Mythic的晶片被稱為IPUs或智慧處理單元。在外設方面,該晶片非常簡單,由PCIe的x4通道和DNN平鋪網格組成,PCIe是負責整個晶片管理的基本控制處理器。由於晶片的設計是為了儲存整個模型,沒有DRAM。Mythic表示,由於這是一個基於tiles的設計,如果有需求,他們可以透過新增直接的音訊/影片和各種其他介面來進一步定製。在去年的Hot Chip上,Mythic談論的是一款5000萬權值(weights)的初始產品。在最近的人工智慧硬體峰會上,Mike Henry表示,初始產品權值將達到1.2億,這比最初的計劃要多很多。在富士通的40nm製程中,近標線全尺寸晶片應具有約300M權值的容量,因此120M仍然是一個相當大的晶片。IPU的作用是作為一個連線到主機的PCIe加速器。對於大型模型或多個模型,可以使用多個IPU。模型最初被載入到IPU中,並保持靜止。沒有DRAM和程式設計快閃記憶體相對較慢,因此模型應該能夠適應晶片與多個應用對映到同一晶片。這對於許多邊緣應用程式來說非常典型。在正常操作下,主機CPU將資料傳送到IPU,並透過PCIe埠接收結果。該晶片由DNN tiles構成網格。在一個tiles裡面是一個模擬矩陣乘法器,它建立在一個巨大的嵌入式快閃記憶體池的頂部,用來計算權值。嵌入式快閃記憶體單元使用浮動柵極透過儲存電荷、控制閾值電壓來儲存位。電晶體支援256級電導(G=1/R)之間的完全關閉和開啟狀態,Mythic用它來表示8位值。透過將所有神經元的權值對映到閃光電晶體上,他們可以利用歐姆定律自然地進行矩陣乘法運算。實現的方法是使用閃光電晶體將權值表示為可變電阻。這在計算之前執行一次。使用8位DAC,輸入向量作為一組電壓透過可變電阻。根據歐姆定律,輸出電流是輸入資料與權值向量(I = V x G)相乘的結果。最後,一組adc將產生的電流轉換回數字值,成為輸出向量。ReLu和其他各種非線性操作也由adc在那個時間點完成。
圍繞這個元件還有一些額外的邏輯。不管工作條件如何,DAC/ADC封裝器都會進行補償和校準,以獲得精確的8位計算—類似於今天的影像感測器所做的工作。需要指出的是,這個方案沒有實際的記憶體訪問。矩陣相乘是在記憶體中完成的,利用歐姆定律,所以沒有權值訪問能量。使用固定權值時,也沒有批次大小或其他特殊處理。雖然固定容量可能會帶來一些問題。順便說一下,它們支援神經元稀疏,但不支援權值稀疏性。有趣的是,Mythic說,對於他們的第一代,為了加快開發和上市時間,他們不會使用DAC作為輸入。相反,他們使用一個數字近似電路,由此分別計算每個輸入位,然後累加結果。他們將在將來用DAC消除這種情況,這有望為他們提供一些很好的改善。