大模子最强架构TTT问世，通宵推翻Transformer？

一醒觉来，超越Transformer和Mamba的新架构降生了？

斯坦福、UCSD、UC伯克利和Meta的研究东说念主员建议了一种全新架构，用机器学习模子取代RNN的荫藏情状。

这个模子通过对输入token进行梯度着落来压缩凹凸文，这种步伐被称为“测试时刻检会层（Test-Time-Training layers，TTT）”。

TTT层径直替代了正经力机制，解锁了具有推崇力记挂的线性复杂度架构，使咱们大概在凹凸文中检会包含数百万（将来可能是数十亿）个token的LLM。

作家肯定，这个研究了一年多的式样，将从压根上改动咱们的言语模子步伐。

而遣散讲授，TTT-Linear和TTT-MLP径直赶超或打败了最强的Transformer和Mamba。

作家之一的Xiaolong Wang惊喜地示意：“不敢肯定，咱们竟然作念到了。”

更令东说念主欢叫的是，天然咫尺TTT只应用于言语建模，但在将来，它也不错用在长视频上，可谓出路众多。

在将来，当咱们对长视频进行建模时，就不错对帧进行密集采样，而不是采样1FPS了。这些密集帧对Transformer是一种职守，但关于TTT层来说，这却是一种福音。

一个5年多的想法，终于杀青了

作家示意，在往日的1.5年里，团队一直在诱惑一种新的LLM架构，不错具有线性复杂度和更强的荫藏情状，用于长凹凸文建模。

而这个测试时检会（TTT）的想法，依然研究了突出5年。

Xiaolong清澈牢记，在刚开动作念博士后时，Alyosha曾让我方去找Yu Sun筹商TTT。

此次会面，便是这项研究的开始。

序列模子会把历史凹凸文存储在一个荫藏情状中。

像Mamba这样的RNN层，会跟着时刻的推移压缩成一个固定大小的情状，它们天然成果很高，但性能受限于其抒发才调。

正经力机制有一个KV缓存，它会跟着时刻的推移不断增长。这个情状不会压缩任何历史凹凸文，但跟着凹凸文长度的增多，资本也会越来越高。

团队成员想：既然这样，为什么不把凹凸文压缩到模子的权重中，就像LLM处理互联网数据那样呢？

这种“荫藏情状模子”既能在时刻上保抓固定大小，又能大大增强抒发才调。

研究东说念主员使用了自监督学习来更新荫藏情状的权重，对每个token进行一次梯度着落。在处理一个序列时，该情状依然在其凹凸文窗口中的token上“检会”过了。

值得正经的是，荫藏情状只存在于端到端架构中的一层。其他组件，比如QKV投影矩阵，是在预检会本领通过程序的交叉熵宗旨函数学习的。

因此，端到端架构实验上是在进行元学习，寻找压缩凹凸文的最好方式，以便更好地展望下一个token，也便是在“学习如安在测试时学习”。

遣散露馅，与Mamba比拟，TTT-Linear具有更好的困惑度和更少的FLOP（左），而况更好地运用了长凹凸文（右）。

下图露馅了批大小为16的情况下，跟着凹凸文长度的变化，每个token的前向时刻（蔓延）。总计模子的参数都是1.3B（Mamba为1.4B）。

不错看到，跟着凹凸文长度的增多，Transformer每个token的前向时刻呈线性增长，但其他两种步伐的前向时刻基本保抓不变。

在8k凹凸文时，TTT-Linear比Transformer更快，与Mamba相配。

RNN的纳闷现实

2020年，OpenAI缩放定律论文标明，LSTM（RNN的一种）无法像Transformer那样进行缩放，或有用地使用长凹凸文。

竟然是这样吗？

在这个式样中，研究东说念主员从新评估了图2中的这些发现。

在左侧，不错不雅察到Mamba（咫尺最流行的RNN之一）的膨胀性与强健的Transformer访佛，这是自2020年的LSTM以来露馅出的巨大跨越。

然则，在右侧，不错不雅察到与OpenAI换取的Mamba问题。

平均而言，序列中靠后的token应该更容易展望，因为它们以更多信息为条目。

对Transformer来说确乎如斯，每个token索引的平均复杂度在其32k凹凸文中不断减少。比拟之下，Mamba在16k后就出现了相同的情况。

关于现存的RNN来说，这个遣散代表了一个纳闷的现实：

一方面，RNN（联系于Transformer）的主要上风便是它们的线性（联系于二次）复杂性。这种渐进上风实验上只会在长凹凸文中杀青。

另一方面，一朝凹凸文填塞长，现存的RNN（如Mamba）就很难的确运用非凡的条目信息。

长凹凸文的穷苦是RNN层本色上的问题：与自正经力机制不同，RNN层必须将凹凸文压缩为固定大小的荫藏情状。

看成一种压缩启发式，更新规则需要发现千千万万以致数百万个token之间的底层结构和关系。

研究东说念主员率先不雅察到，自监督学习不错将大都检会集压缩为LLM等模子的权重，该模子时常推崇出对其检会数据之间语义策划的深入吞并，而这，恰正是他们所需要的。

TTT层

受此启发，研究东说念主员设想了一类新的序列建模层，其中荫藏情状是模子，更新规则是自监督学习的一个身手。

由于更新测试序列上荫藏情状的流程，相配于在测试时检会模子，因此此类新层称为测试时检会（TTT）层。

研究东说念主员引入两个浮浅的实例：TTT-Linear和TTT-MLP，其中荫藏情状差别是线性模子和两层MLP。TTT层不错集成到任何收罗架构中并进行端到端优化，访佛于RNN层和自正经力。

实验运行时刻

TTT层在FLOP方面依然相配高效，研究东说念主员则更进一局面建议了两项转换，使其在实验运行时刻内也能保抓高效。

率先，与在旧例检会中对mini-batch序列领受梯度步进以杀青更好的并行性访佛，他们也在TTT中使用了mini-batch的token。

其次，研究东说念主员为每个TTT mini-batch内的操作诱惑了一种对偶方法，以更好地运用当代GPU和TPU。这种对偶方法的输出与原始杀青相配，但检会速率却快了5倍以上。

正如图3所示，TTT-Linear在8k凹凸文中比Transformer更快，而况与Mamba相配。

Transformer杀手：TTT

如图4所示，总计的序列建模层，都不错从将历史凹凸文存储到荫藏情状的角度来看待。

比如，RNN层——如LSTM、RWKV和Mamba层——将凹凸文压缩成一个固定大小的情状，这个情状随时刻变化。

这种压缩带来了两种遣散：上风是处理成果高，因为每个token的处理时刻是恒定的。弱点是在处理长凹凸文时，RNN性能受限于荫藏情状的“抒发才调”。

自正经力机制（Self-attention）也不错从如上角度来吞并。

不同之处在于，它的荫藏情状，时常称为键值（KV）缓存是一个随t增长的线性list。

它不错存储总计的凹凸文，而况不会进行压缩，具有很好的抒发才调，不外其处理时刻随凹凸文长度线性增长。

因此，为了在长凹凸文中既保抓成果，又具有抒发才调，需要一个更好的“压缩启发式”（compression heuristic）步伐。

具体来说，就需要将数百万个token压缩成一个能有用捕捉其底层结构和关系的荫藏情状。

TTT荫藏情状

研究东说念主员的要道念念想是，使用自监督学习来将历史凹凸文x1,...,xt压缩成一个荫藏情状St。

步伐是将凹凸文视为一个无标签数据集，而将情状视为一个模子。

具体来说，荫藏情状St现在等同于一个模子f的权重Wt，这个模子f不错是线性模子、袖珍神经收罗或其他任何方法。输出规则浮浅地示意为：

直不雅来讲，输出token便是由更新后权重Wt的模子f对xt所作念的展望。更新规则是在某个自监督蚀本ℓ上进行的一步梯度着落：

其中学习率为η。从压缩的角度来看，每种启发式步伐都需要决定记着/健忘哪些输入。W会记着那些产生大梯度的输入——直不雅地说，便是那些使W学习好多的输入。

ℓ的一种选拔是重构xt自己。为了使学习问题变得非平淡，作家率先将xt处理成一个被破损的输入x̄t，然后优化：

访佛于去噪自编码器，f需要发现xt各维度之间的关连性，以便从部分信息x̄t中重构出xt。

如图5所示，梯度着落大概减少ℓ，但无法将其降至零。

与其他RNN层和自正经力机制一样，研究东说念主员将输入序列x1,...,xT映射到输出序列Z1,...,ZT的算法不错被编程到序列建模层的前向传播中，使用上述的荫藏情状、更新规则和输出规则。

即使在测试时，新层仍然为每个输入序列检会一个不同的权重序列W1,...,WT。

因此，研究东说念主员将其称之为测试-时刻检会层（TTT）。

使用TTT层检会神经收罗

TTT层的前向传播，也有相应的后向传播。

TTT层与RNN层、自正经力机制有着换取的接口，因此不错在职何更大的神经收罗架构中替换它们。

值得一提的是，检会带有TTT层神经收罗的方式，与检会任何其他Transformer模子换取。

不错使用换取的数据、步伐和宗旨（如下一个token展望）来优化收罗其余部分的参数。

在此，研究东说念主员将检会更大的神经收罗称为外轮回（outer loop），而在每个TTT层内检会W称为内轮回（inner loop）。

它们之间梯度测度打算的区别是，内轮回针对的是W（即模子f的参数），外轮回针对的是收罗其余部分的参数θrest。

TTT学习自监督任务

不错说，TTT最蹙迫的部分是自监督任务，因为它决定了W从测试序列中学习的特征类型。

在这个任务的设想上，研究东说念主员领受了愈加端到端的步伐——径直优化自监督任务以杀青下一个token展望的最终宗旨。

具体来说，研究者将自监督任务的学习，看成外轮回的一部分。

从如上公式3中的浮浅重构任务开动，添加了一些外轮回参数来让这个任务可学习。最新的自监督蚀本是：

在内轮回中，唯有W被优化，因此看成ℓ的参数写出；θ们是这个蚀本函数的“超参数”。在外轮回中，θK,θV,θQ与θrest一皆被优化，而W只是是一个荫藏情状，不是参数。

图6用代码阐扬了这种区别，其中θK和θQ被杀青为TTT层的参数，访佛于自正经力中的KV参数。

总的来说，θK,θV,θQ总计可能的选拔组成了一系列多视图重构任务，外轮回不错被吞并为从这个任务组中选拔一个具体任务。为了浮浅起见，研究东说念主员在这里将总计视图设想为线性投影。

mini-batch TTT并行化

咫尺，诱惑的原生TTT层在浮点运算（FLOP）次数方面依然相配高效。

然则，其更新规则：

无法杀青并行化，因为Wt在两个位置上依赖于Wt-1：负号和▽l。

对此，研究东说念主员建议了mini-batch梯度着落，用b示意TTT批大小。

研究中使用Gt = ▽l(Wt';xt)，其中t' = t - mod(t,b)，其中代表着前一个mini-batch的临了一个时刻步（或者第一个mini-batch 0），因此，不错一次并行b个梯度测度打算。

对偶方法

上头先容的并行化是必要的，但关于“实验运行时刻”（wall-clock time）的成果来说还不够。

表面等价

前边依然提到f不错是线性模子，也不错是神经收罗。还有更新规则的三种变体：online GD、batch GD和mini-batch GD。

如下图所示，在这些2×3组合中，每一种都会引起TTT层的不同实例化。

研究中，作家差别从2个定理讲授了在这些指引实例中，具有线性模子和batch GD的TTT层等同于线性正经力——一个广为东说念主知的RNN层。

图10转头了总计序列建模层的更平日限制内TTT层的一般界说。

两种变体

实验

通过与两个基线Transformer和Mamba（当代RNN）比较，研究东说念主员评估了TTT-Linear和TTT-MLP。

数据集

不时Mamba论文之后，研究东说念主员在Pile上实践了2k和8k凹凸文长度的程序实验，Pile是一个用于检会开源LLM的流行文档数据集。

主架构

Transformer和Mamba使用不同的，除非另有阐扬，TTT-Linear和TTT-MLP永久使用Mamba架构。

短凹凸文：the Pile

在2k凹凸文中，TTT-Linear（M）、Mamba和Transformer具有相配的性能，线条大部分重迭。

TTT-MLP（M）在较大的FLOP预算下推崇稍差。尽管TTT-MLP在每个模子大小上，都比TTT-Linear具有更好的复杂度，但FLOP的非凡资本对消了这种上风。

在8k凹凸文中，TTT-Linear（M）和TTT-MLP（M）的推崇均赫然优于Mamba。即使是具有Transformer架构的TTT-MLP（T），性能也比Mamba略好。

另外，研究东说念主员还不雅察到了一个相配赫然的喜跃：跟着凹凸文长度变长，TTT层联系于Mamba的上风就更大了。

长凹凸文：Books

为了评估长凹凸文中的功能，研究东说念主员使用了Pile的一个流行子集——Books，对从1k到32k以2个增量的凹凸文长度进行了实验。

把柄上图，不错不雅察到：

在Books的2k凹凸文中，Pile 2k的总计不雅察遣散仍然配置，独一的例外是Mamba的推崇略好于TTT-Linear。

在32k凹凸文中，TTT-Linear（M）和TTT-MLP（M）的性能均优于Mamba，与Pile 8k的不雅察遣散访佛。即使具有Transformer架构的TTT-MLP（T），在32k凹凸文中的推崇也比Mamba稍好。

在1.3B程序上，TTT-MLP（T）仅比TTT-MLP（M）稍差。由于败落清澈的线性拟合，很难推导出教授缩放定律。然则，TTT-MLP（T）的强劲趋势标明，Transformer架构可能更得当超出评估的更大模子和更长凹凸文。

凹凸文长度看成超参数

天然输入序列的长度由用户笃定，但言语模子处理输入的凹凸文长度不错由工程师笃定。因此，凹凸文长度亦然一个不错选拔的超参数。

关于具有线性复杂度的LLM，研究东说念主员选拔了困惑度中的argmin，因为每个凹凸文长度都有换取的FLOP。

从图13中，不错不雅察到以下遣散：

性能最好的步伐TTT-Linear和TTT-MLP的线简直统统重迭。Mamba和TF Finetune的线在10^20 FLOP后也大部分重迭。

TF Finetune的性能赫然优于TF Pretrain，因为它受益于长凹凸文，而不会在检会FLOP中产生极大的资本。

关于总计重新开动检会的步伐（包括TF预检会），一朝凹凸文长度变得太大，困惑度就会变得更糟。

从上图可见，与TTT-Linear比拟，TTT-MLP在短凹凸文中推崇稍差，但在长凹凸文中推崇更好。

这一不雅察遣散正得当研究东说念主员的预期，即看成荫藏情状的MLP比线性模子更具推崇力。相同，总计步伐都具有与Mamba 1.4B换取的检会FLOP。

实验运行时刻

LLM检会和推理不错理解为前向、后向和生成。

由于前向（在检会和推理本领）和后向都不错并行化，因此研究东说念主员使用对偶方法。生成新token（也称为解码）本色上是章程的，因此研究东说念主员使用原始方法。

由于资源罢休，这项实验是用JAX编写并在TPU上运行的。

然则，由于Mamba（在PyTorch、Triton和CUDA中杀青）只可在GPU上运行，因此为了公说念比较，研究东说念主员还重写了步伐，以在GPU上运行。

具体来说，研究东说念主员在ThunderKittens中编写了一个用于前向的GPU内核。从历史上看，由于并行性和矩阵相乘的使用失当，RNN在前向和后向流程中成果低下。

这个前向内核的宗旨，是讲授mini-batch TTT和这些问题对偶方法的有用性。

图15的左图露馅了前向内核批大小为16的蔓延。总计模子参数均为1.3B（Mamba为 1.4B）。

关于Transformer，每个token的时刻跟着凹凸文长度的增多而线性增长，但关于其他步伐例梗概保抓不变。

此外，研究东说念主员在Triton中编写了另一个用于生成的GPU内核，并在图15的右图中对批大小为512的速率进行了基准测试。

不错看出，TTT-Linear和Mamba的蔓延简直换取，赫然小于Transformer和TTT-MLP。

Mamba之后，又看到TTT这样能打的新架构降生，少不了AI社区的热议。

有网友称，这会不会是最接近及时凹凸文的步伐？很想听听大家的想法。这意味着TTT以致在使用流程中，也大概学习和得当，为长凹凸文提供更好的性能，而不会产生时常与Transformer关连的上流测度打算资本。

OpenAI视频生成研究东说念主员对此示意，这项研究看起来很风趣。

如果scaling law依然存在，TTT将带来难以置信的影响。关于长序列，Transformer的测度打算资本每每很高，当长序列变得更万古，RNN会渐忘。TTT检会玄机地运用神经收罗惩办RNN的不及。

作家先容

论文临了，差别列出了这篇研究的作家孝敬。

其中的中枢作家是，Yu Sun、Xinhao Li和Karan Dalal。

Yu Sun

Yu Sun是斯坦福大学测度打算机专科的博士后，导师是Carlos Guestrin、Tatsu Hashimoto和Sanmi Koyejo。

此前，他曾在加州大学伯克利分校完成了电子工程科学博士学位，导师是Alyosha Efros和Moritz Hardt。他还在康奈尔大学拿到了学士学位。

个东说念主主页中，他先容我方的研究要点是一种名为测试时刻检会（test-time training）的算法框架。其中枢念念想是，每个测试实例都界说了我方的学习问题，都有我方的泛化宗旨。这时常使用自监督学习，为每个实例即时检会一个不同的模子来杀青的。

在最新研究中，Yu Sun与Xinhao Li在2022年11月共同启动了这一式样。自2023年6月起，Yu Sun专职厚爱该式样。

他建议了式样的见解框架，设想了mini-batch TTT和对偶方法（dual form）。

Xinhao Li

Xinhao Li是UC San Diego研二的学生，导师是Xiaolong Wang讲授。他本东说念主的研究趣味主如若深度学习和测度打算机视觉。

他在斯坦福大学Tatsunori Hashimoto讲授的团队中看成探问学生，与Yu Sun博士和其他导师一又友一皆责任。在此之前，他曾在电子科技大学取得了学士学位。

在2024年3月之前，Xinhao Li是TTT早期代码库的主要孝敬者，这些代码库塑造了最新式样。

Karan Dalal

Karan Dalal是UC Berkeley电子工程科学系的本科生。他于2023年6月全职加入该式样，与Xinhao Li相助共同率领了刻下代码库的诱惑责任。