你的位置: 通辽池敦蹈工艺品有限责任公司 > 消防安全标志 > 大模子最强架构TTT问世,通宵推翻Transformer?
热点资讯

大模子最强架构TTT问世,通宵推翻Transformer?

发布日期:2024-07-11 01:11    点击次数:193

大模子最强架构TTT问世,通宵推翻Transformer?

大模子最强架构TTT问世,通宵推翻Transformer?

一醒觉来,超越Transformer和Mamba的新架构降生了?

斯坦福、UCSD、UC伯克利和Meta的研究东说念主员建议了一种全新架构,用机器学习模子取代RNN的荫藏情状。

这个模子通过对输入token进行梯度着落来压缩凹凸文,这种步伐被称为“测试时刻检会层(Test-Time-Training layers,TTT)”。

TTT层径直替代了正经力机制,解锁了具有推崇力记挂的线性复杂度架构,使咱们大概在凹凸文中检会包含数百万(将来可能是数十亿)个token的LLM。

作家肯定,这个研究了一年多的式样,将从压根上改动咱们的言语模子步伐。

而遣散讲授,TTT-Linear和TTT-MLP径直赶超或打败了最强的Transformer和Mamba。

作家之一的Xiaolong Wang惊喜地示意:“不敢肯定,咱们竟然作念到了。”

更令东说念主欢叫的是,天然咫尺TTT只应用于言语建模,但在将来,它也不错用在长视频上,可谓出路众多。

在将来,当咱们对长视频进行建模时,就不错对帧进行密集采样,而不是采样1FPS了。这些密集帧对Transformer是一种职守,但关于TTT层来说,这却是一种福音。

一个5年多的想法,终于杀青了

作家示意,在往日的1.5年里,团队一直在诱惑一种新的LLM架构,不错具有线性复杂度和更强的荫藏情状,用于长凹凸文建模。

而这个测试时检会(TTT)的想法,依然研究了突出5年。

Xiaolong清澈牢记,在刚开动作念博士后时,Alyosha曾让我方去找Yu Sun筹商TTT。

此次会面,便是这项研究的开始。

序列模子会把历史凹凸文存储在一个荫藏情状中。

像Mamba这样的RNN层,会跟着时刻的推移压缩成一个固定大小的情状,它们天然成果很高,但性能受限于其抒发才调。

正经力机制有一个KV缓存,它会跟着时刻的推移不断增长。这个情状不会压缩任何历史凹凸文,但跟着凹凸文长度的增多,资本也会越来越高。

团队成员想:既然这样,为什么不把凹凸文压缩到模子的权重中,就像LLM处理互联网数据那样呢?

这种“荫藏情状模子”既能在时刻上保抓固定大小,又能大大增强抒发才调。

研究东说念主员使用了自监督学习来更新荫藏情状的权重,对每个token进行一次梯度着落。在处理一个序列时,该情状依然在其凹凸文窗口中的token上“检会”过了。

值得正经的是,荫藏情状只存在于端到端架构中的一层。其他组件,比如QKV投影矩阵,是在预检会本领通过程序的交叉熵宗旨函数学习的。

因此,端到端架构实验上是在进行元学习,寻找压缩凹凸文的最好方式,以便更好地展望下一个token,也便是在“学习如安在测试时学习”。

遣散露馅,与Mamba比拟,TTT-Linear具有更好的困惑度和更少的FLOP(左),而况更好地运用了长凹凸文(右)。

下图露馅了批大小为16的情况下,跟着凹凸文长度的变化,每个token的前向时刻(蔓延)。总计模子的参数都是1.3B(Mamba为1.4B)。

不错看到,跟着凹凸文长度的增多,Transformer每个token的前向时刻呈线性增长,但其他两种步伐的前向时刻基本保抓不变。

在8k凹凸文时,TTT-Linear比Transformer更快,与Mamba相配。

RNN的纳闷现实

2020年,OpenAI缩放定律论文标明,LSTM(RNN的一种)无法像Transformer那样进行缩放,或有用地使用长凹凸文。

竟然是这样吗?

在这个式样中,研究东说念主员从新评估了图2中的这些发现。

在左侧,不错不雅察到Mamba(咫尺最流行的RNN之一)的膨胀性与强健的Transformer访佛,这是自2020年的LSTM以来露馅出的巨大跨越。

然则,在右侧,不错不雅察到与OpenAI换取的Mamba问题。

平均而言,序列中靠后的token应该更容易展望,因为它们以更多信息为条目。

对Transformer来说确乎如斯,每个token索引的平均复杂度在其32k凹凸文中不断减少。比拟之下,Mamba在16k后就出现了相同的情况。

关于现存的RNN来说,这个遣散代表了一个纳闷的现实:

一方面,RNN(联系于Transformer)的主要上风便是它们的线性(联系于二次)复杂性。这种渐进上风实验上只会在长凹凸文中杀青。

另一方面,一朝凹凸文填塞长,现存的RNN(如Mamba)就很难的确运用非凡的条目信息。

长凹凸文的穷苦是RNN层本色上的问题:与自正经力机制不同,RNN层必须将凹凸文压缩为固定大小的荫藏情状。

看成一种压缩启发式,更新规则需要发现千千万万以致数百万个token之间的底层结构和关系。

研究东说念主员率先不雅察到,自监督学习不错将大都检会集压缩为LLM等模子的权重,该模子时常推崇出对其检会数据之间语义策划的深入吞并,而这,恰正是他们所需要的。

TTT层

受此启发,研究东说念主员设想了一类新的序列建模层,其中荫藏情状是模子,更新规则是自监督学习的一个身手。

由于更新测试序列上荫藏情状的流程,相配于在测试时检会模子,因此此类新层称为测试时检会(TTT)层。

研究东说念主员引入两个浮浅的实例:TTT-Linear和TTT-MLP,其中荫藏情状差别是线性模子和两层MLP。TTT层不错集成到任何收罗架构中并进行端到端优化,访佛于RNN层和自正经力。

实验运行时刻

TTT层在FLOP方面依然相配高效,研究东说念主员则更进一局面建议了两项转换,使其在实验运行时刻内也能保抓高效。

率先,与在旧例检会中对mini-batch序列领受梯度步进以杀青更好的并行性访佛,他们也在TTT中使用了mini-batch的token。

其次,研究东说念主员为每个TTT mini-batch内的操作诱惑了一种对偶方法,以更好地运用当代GPU和TPU。这种对偶方法的输出与原始杀青相配,但检会速率却快了5倍以上。

正如图3所示,TTT-Linear在8k凹凸文中比Transformer更快,而况与Mamba相配。

Transformer杀手:TTT

如图4所示,总计的序列建模层,都不错从将历史凹凸文存储到荫藏情状的角度来看待。

比如,RNN层——如LSTM、RWKV和Mamba层——将凹凸文压缩成一个固定大小的情状,这个情状随时刻变化。

这种压缩带来了两种遣散:上风是处理成果高,因为每个token的处理时刻是恒定的。弱点是在处理长凹凸文时,RNN性能受限于荫藏情状的“抒发才调”。

自正经力机制(Self-attention)也不错从如上角度来吞并。

不同之处在于,它的荫藏情状,时常称为键值(KV)缓存是一个随t增长的线性list。

它不错存储总计的凹凸文,而况不会进行压缩,具有很好的抒发才调,不外其处理时刻随凹凸文长度线性增长。

因此,为了在长凹凸文中既保抓成果,又具有抒发才调,需要一个更好的“压缩启发式”(compression heuristic)步伐。

具体来说,就需要将数百万个token压缩成一个能有用捕捉其底层结构和关系的荫藏情状。

TTT荫藏情状

研究东说念主员的要道念念想是,使用自监督学习来将历史凹凸文x1,...,xt压缩成一个荫藏情状St。

步伐是将凹凸文视为一个无标签数据集,而将情状视为一个模子。

具体来说,荫藏情状St现在等同于一个模子f的权重Wt,这个模子f不错是线性模子、袖珍神经收罗或其他任何方法。输出规则浮浅地示意为:

直不雅来讲,输出token便是由更新后权重Wt的模子f对xt所作念的展望。更新规则是在某个自监督蚀本ℓ上进行的一步梯度着落:

其中学习率为η。从压缩的角度来看,每种启发式步伐都需要决定记着/健忘哪些输入。W会记着那些产生大梯度的输入——直不雅地说,便是那些使W学习好多的输入。

ℓ的一种选拔是重构xt自己。为了使学习问题变得非平淡,作家率先将xt处理成一个被破损的输入x̄t,然后优化:

访佛于去噪自编码器,f需要发现xt各维度之间的关连性,以便从部分信息x̄t中重构出xt。

如图5所示,梯度着落大概减少ℓ,但无法将其降至零。

与其他RNN层和自正经力机制一样,研究东说念主员将输入序列x1,...,xT映射到输出序列Z1,...,ZT的算法不错被编程到序列建模层的前向传播中,使用上述的荫藏情状、更新规则和输出规则。

即使在测试时,新层仍然为每个输入序列检会一个不同的权重序列W1,...,WT。

因此,研究东说念主员将其称之为测试-时刻检会层(TTT)。

使用TTT层检会神经收罗

TTT层的前向传播,也有相应的后向传播。

TTT层与RNN层、自正经力机制有着换取的接口,因此不错在职何更大的神经收罗架构中替换它们。

值得一提的是,检会带有TTT层神经收罗的方式,与检会任何其他Transformer模子换取。

不错使用换取的数据、步伐和宗旨(如下一个token展望)来优化收罗其余部分的参数。

在此,研究东说念主员将检会更大的神经收罗称为外轮回(outer loop),而在每个TTT层内检会W称为内轮回(inner loop)。

它们之间梯度测度打算的区别是,内轮回针对的是W(即模子f的参数),外轮回针对的是收罗其余部分的参数θrest。

TTT学习自监督任务

不错说,TTT最蹙迫的部分是自监督任务,因为它决定了W从测试序列中学习的特征类型。

在这个任务的设想上,研究东说念主员领受了愈加端到端的步伐——径直优化自监督任务以杀青下一个token展望的最终宗旨。

具体来说,研究者将自监督任务的学习,看成外轮回的一部分。

从如上公式3中的浮浅重构任务开动,添加了一些外轮回参数来让这个任务可学习。最新的自监督蚀本是:

在内轮回中,唯有W被优化,因此看成ℓ的参数写出;θ们是这个蚀本函数的“超参数”。在外轮回中,θK,θV,θQ与θrest一皆被优化,而W只是是一个荫藏情状,不是参数。

图6用代码阐扬了这种区别,其中θK和θQ被杀青为TTT层的参数,访佛于自正经力中的KV参数。

总的来说,θK,θV,θQ总计可能的选拔组成了一系列多视图重构任务,外轮回不错被吞并为从这个任务组中选拔一个具体任务。为了浮浅起见,研究东说念主员在这里将总计视图设想为线性投影。

mini-batch TTT并行化

咫尺,诱惑的原生TTT层在浮点运算(FLOP)次数方面依然相配高效。

然则,其更新规则:

无法杀青并行化,因为Wt在两个位置上依赖于Wt-1:负号和▽l。

对此,研究东说念主员建议了mini-batch梯度着落,用b示意TTT批大小。

研究中使用Gt = ▽l(Wt';xt),其中t' = t - mod(t,b),其中代表着前一个mini-batch的临了一个时刻步(或者第一个mini-batch 0),因此,不错一次并行b个梯度测度打算。

对偶方法

上头先容的并行化是必要的,但关于“实验运行时刻”(wall-clock time)的成果来说还不够。

表面等价

前边依然提到f不错是线性模子,也不错是神经收罗。还有更新规则的三种变体:online GD、batch GD和mini-batch GD。

如下图所示,在这些2×3组合中,每一种都会引起TTT层的不同实例化。

研究中,作家差别从2个定理讲授了在这些指引实例中,具有线性模子和batch GD的TTT层等同于线性正经力——一个广为东说念主知的RNN层。

图10转头了总计序列建模层的更平日限制内TTT层的一般界说。

两种变体

实验

通过与两个基线Transformer和Mamba(当代RNN)比较,研究东说念主员评估了TTT-Linear和TTT-MLP。

数据集

不时Mamba论文之后,研究东说念主员在Pile上实践了2k和8k凹凸文长度的程序实验,Pile是一个用于检会开源LLM的流行文档数据集。

主架构

Transformer和Mamba使用不同的,除非另有阐扬,TTT-Linear和TTT-MLP永久使用Mamba架构。

短凹凸文:the Pile

在2k凹凸文中,TTT-Linear(M)、Mamba和Transformer具有相配的性能,线条大部分重迭。

TTT-MLP(M)在较大的FLOP预算下推崇稍差。尽管TTT-MLP在每个模子大小上,都比TTT-Linear具有更好的复杂度,但FLOP的非凡资本对消了这种上风。

在8k凹凸文中,TTT-Linear(M)和TTT-MLP(M)的推崇均赫然优于Mamba。即使是具有Transformer架构的TTT-MLP(T),性能也比Mamba略好。

另外,研究东说念主员还不雅察到了一个相配赫然的喜跃:跟着凹凸文长度变长,TTT层联系于Mamba的上风就更大了。

长凹凸文:Books

为了评估长凹凸文中的功能,研究东说念主员使用了Pile的一个流行子集——Books,对从1k到32k以2个增量的凹凸文长度进行了实验。

把柄上图,不错不雅察到:

在Books的2k凹凸文中,Pile 2k的总计不雅察遣散仍然配置,独一的例外是Mamba的推崇略好于TTT-Linear。

在32k凹凸文中,TTT-Linear(M)和TTT-MLP(M)的性能均优于Mamba,与Pile 8k的不雅察遣散访佛。即使具有Transformer架构的TTT-MLP(T),在32k凹凸文中的推崇也比Mamba稍好。

在1.3B程序上,TTT-MLP(T)仅比TTT-MLP(M)稍差。由于败落清澈的线性拟合,很难推导出教授缩放定律。然则,TTT-MLP(T)的强劲趋势标明,Transformer架构可能更得当超出评估的更大模子和更长凹凸文。

凹凸文长度看成超参数

天然输入序列的长度由用户笃定,但言语模子处理输入的凹凸文长度不错由工程师笃定。因此,凹凸文长度亦然一个不错选拔的超参数。

关于具有线性复杂度的LLM,研究东说念主员选拔了困惑度中的argmin,因为每个凹凸文长度都有换取的FLOP。

从图13中,不错不雅察到以下遣散:

性能最好的步伐TTT-Linear和TTT-MLP的线简直统统重迭。Mamba和TF Finetune的线在10^20 FLOP后也大部分重迭。

TF Finetune的性能赫然优于TF Pretrain,因为它受益于长凹凸文,而不会在检会FLOP中产生极大的资本。

关于总计重新开动检会的步伐(包括TF预检会),一朝凹凸文长度变得太大,困惑度就会变得更糟。

从上图可见,与TTT-Linear比拟,TTT-MLP在短凹凸文中推崇稍差,但在长凹凸文中推崇更好。

这一不雅察遣散正得当研究东说念主员的预期,即看成荫藏情状的MLP比线性模子更具推崇力。相同,总计步伐都具有与Mamba 1.4B换取的检会FLOP。

实验运行时刻

LLM检会和推理不错理解为前向、后向和生成。

由于前向(在检会和推理本领)和后向都不错并行化,因此研究东说念主员使用对偶方法。生成新token(也称为解码)本色上是章程的,因此研究东说念主员使用原始方法。

由于资源罢休,这项实验是用JAX编写并在TPU上运行的。

然则,由于Mamba(在PyTorch、Triton和CUDA中杀青)只可在GPU上运行,因此为了公说念比较,研究东说念主员还重写了步伐,以在GPU上运行。

具体来说,研究东说念主员在ThunderKittens中编写了一个用于前向的GPU内核。从历史上看,由于并行性和矩阵相乘的使用失当,RNN在前向和后向流程中成果低下。

这个前向内核的宗旨,是讲授mini-batch TTT和这些问题对偶方法的有用性。

图15的左图露馅了前向内核批大小为16的蔓延。总计模子参数均为1.3B(Mamba为 1.4B)。

关于Transformer,每个token的时刻跟着凹凸文长度的增多而线性增长,但关于其他步伐例梗概保抓不变。

此外,研究东说念主员在Triton中编写了另一个用于生成的GPU内核,并在图15的右图中对批大小为512的速率进行了基准测试。

不错看出,TTT-Linear和Mamba的蔓延简直换取,赫然小于Transformer和TTT-MLP。

Mamba之后,又看到TTT这样能打的新架构降生,少不了AI社区的热议。

有网友称,这会不会是最接近及时凹凸文的步伐?很想听听大家的想法。这意味着TTT以致在使用流程中,也大概学习和得当,为长凹凸文提供更好的性能,而不会产生时常与Transformer关连的上流测度打算资本。

OpenAI视频生成研究东说念主员对此示意,这项研究看起来很风趣。

如果scaling law依然存在,TTT将带来难以置信的影响。关于长序列,Transformer的测度打算资本每每很高,当长序列变得更万古,RNN会渐忘。TTT检会玄机地运用神经收罗惩办RNN的不及。

作家先容

论文临了,差别列出了这篇研究的作家孝敬。

其中的中枢作家是,Yu Sun、Xinhao Li和Karan Dalal。

Yu Sun

Yu Sun是斯坦福大学测度打算机专科的博士后,导师是Carlos Guestrin、Tatsu Hashimoto和Sanmi Koyejo。

此前,他曾在加州大学伯克利分校完成了电子工程科学博士学位,导师是Alyosha Efros和Moritz Hardt。他还在康奈尔大学拿到了学士学位。

个东说念主主页中,他先容我方的研究要点是一种名为测试时刻检会(test-time training)的算法框架。其中枢念念想是,每个测试实例都界说了我方的学习问题,都有我方的泛化宗旨。这时常使用自监督学习,为每个实例即时检会一个不同的模子来杀青的。

在最新研究中,Yu Sun与Xinhao Li在2022年11月共同启动了这一式样。自2023年6月起,Yu Sun专职厚爱该式样。

他建议了式样的见解框架,设想了mini-batch TTT和对偶方法(dual form)。

Xinhao Li

Xinhao Li是UC San Diego研二的学生,导师是Xiaolong Wang讲授。他本东说念主的研究趣味主如若深度学习和测度打算机视觉。

他在斯坦福大学Tatsunori Hashimoto讲授的团队中看成探问学生,与Yu Sun博士和其他导师一又友一皆责任。在此之前,他曾在电子科技大学取得了学士学位。

在2024年3月之前,Xinhao Li是TTT早期代码库的主要孝敬者,这些代码库塑造了最新式样。

Karan Dalal

Karan Dalal是UC Berkeley电子工程科学系的本科生。他于2023年6月全职加入该式样,与Xinhao Li相助共同率领了刻下代码库的诱惑责任。



----------------------------------