從 125M 到 1.3B 的大模型,效能都有提升。
在論文上線後,作者公開了程式碼與 jax 以供人們訓練和測試:https://github.com/test-time-training/ttt-lm-jax 還有 PyTorch 推理程式碼:https://github.com/test-time-training/ttt-lm-pytorch
2k 上下文,TTT-Linear (M)、Mamba 和 Transformer 的效能相當,因為線條大多重疊。在 FLOP 預算較大的情況下,TTT-MLP (M) 的效能稍差。儘管 TTT-MLP 在各種模型大小下都比 TTT-Linear 有更好的困惑度,但 FLOPs 的額外成本抵消了這一優勢。 8k 上下文,TTT-Linear (M) 和 TTT-MLP (M) 的表現都明顯優於 Mamba,這與 2k 上下文中的觀察結果截然不同。即使是使用 Transformer 主幹網路的 TTT-MLP (T) 在 1.3B 左右也比 Mamba 略勝一籌。一個顯著現象是,隨著上下文長度的增加,TTT 層相對於 Mamba 層的優勢也在擴大。 上下文長度達到 8k,Transformer 在每種模型尺寸下的困惑度依舊錶現不錯,但由於 FLOPs 成本的原因,已不具競爭力。