這是微軟再5月剛剛釋出的一篇論文提出了一種解碼器-解碼器架構YOCO,因為只快取一次KV對,所以可以大量的節省記憶體。
以前的模型都是透過快取先前計算的鍵/值向量,可以在當前生成步驟中重用它們。鍵值(KV)快取避免了對每個詞元再次編碼的過程,這樣可以大大提高了推理速度。
但是隨著詞元數量的增加,KV快取佔用了大量GPU記憶體,使得大型語言模型的推理受到記憶體限制。所以論文的作者改進了這一架構:
YOCO是為自迴歸建模而設計的,例如大型語言模型(llm)。所提出的解碼器-解碼器架構有兩部分,即自解碼器和交叉解碼器,如下圖所示
https://avoid.overfit.cn/post/90e0bd170644476cbccabb039e7105ae