2026年3月16日,Kimi团队在arXiv上发表Attention Residuals论文,马斯克转发,前OpenAI联合创始人Jerry Tworek给出"deep learning 2.0"的评价。同一天,字节跳动Seed团队和华中科技大学联合发表MoDA(Mixture-of-Depths Attention)论文,解决完全相同的问题。一周内,南京大学等人的第三篇论文从理论侧给出精确病理报告。三篇论文密集出现,对准同一个靶子——Transformer架构中一个被忽视了近十年的结构性问题。天津智核科技作为企业级AI基础设施服务商,深度解析这场注意力深度革命对产业格局的深远影响。
残差连接的深层诅咒:44%算力空转的真相
残差连接的深层诅咒:44%算力空转的真相
残差连接是2015年何恺明在ResNet里提出的,思路极其朴素:网络堆到二十几层就训不动了,梯度消失让深层参数几乎不更新,那就给每一层加一条"高速公路",让输入直接跳过这一层接到输出上。即使这一层什么都没学到,信息和梯度至少能通过这条捷径传下去。两年后Transformer问世,残差连接被原封不动地搬过来。从那以后,这个设计就没人动过。不是没人试过。ReZero、FixUp、Highway Network都做过变体,让残差权重可学习,但没有一个进入主流大模型的架构选型,因为残差连接太好用了。
副作用是什么?2025年初,西湖大学、Emory和MPI的研究团队发表"The Curse of Depth",今年3月南京大学等人的研究进一步给出了定量诊断。在当前主流大模型的架构下,深层的变换越来越接近恒等映射,输入什么就输出什么,这一层等于没有。数字很难看。研究者用"有用性分数"来衡量每一层是否在做有意义的变换。12层的模型,所有层都在干活。16层,三层废了。24层,九层废了。32层,14层废了,44%的层几乎什么都没学到。参数量从9亿增加到23亿,多花了156%的预算,有效层只从12增加到18。
原因和残差连接的工作方式直接相关。每一层的输出通过残差连接加到一条"主干道"上,随着层数增加,主干道上累积的信号越来越大,但每一层新产生的信号幅度是有限的。到了深层,新信号就淹没在背景噪音里了,输入和输出几乎一样,这一层形同虚设。残差连接解决了"让梯度传过去"的问题,但制造了"让深层有意义"的问题。在大模型时代,这个代价是真金白银。一层就是几十亿次浮点运算,一个128层的模型如果有44%的层在空转,将近六十层的算力在做无用功。社区卷了几年的推理效率优化,量化、蒸馏、剪枝、稀疏注意力、KV cache压缩,全都在优化那些"有用的计算"。最大的效率黑洞不在注意力的二次方复杂度上,而在一个从2015年就没变过的加法操作上。
双维注意力:给注意力加第二个维度
双维注意力:给注意力加第二个维度
字节跳动Seed团队和华中科大的出发点不是"残差连接坏了,得换掉"。他们的问题问得更直接——注意力机制已经能让token之间互相看,为什么不能让它同时也看到深度方向上的信息?传统注意力只有一个维度——序列维度。第20层的某个token在做注意力计算时,只能看到同一层内其他token的信息,它看不到自己在第3层、第10层时的状态,哪怕那些浅层学到的特征对当前计算非常有用。这些浅层特征确实还在残差流里,但已经被十几层的残差更新反复叠加、逐渐稀释了。深层想用浅层的特征,只能用这杯被稀释了十几次的"兑水果汁"。
MoDA的做法是给注意力加上第二个维度——深度维度。每个注意力头在做正常的序列注意力(token看token)的同时,也做一个深度注意力(直接去前面所有层取原汁原味的KV对)。两路信息在同一个Softmax下联合归一化,模型自己决定是该多看看当前层的上下文,还是该回头翻翻浅层学到的特征。残差连接还在,没有被替换,但深层不再只能依赖它来获取浅层信息了。想法不难理解,难的是怎么在不拖垮速度的情况下把它做出来。问题出在GPU的内存访问模式上。正常的注意力计算,所有KV对都来自同一层,在显存里是连续存放的,GPU读取效率很高。但MoDA需要从前面所有层去取KV对,这些数据散落在显存的不同位置上,GPU最怕的就是这种"东一块西一块"的随机读取,速度会断崖式下降。
MoDA的解法叫分组重排。核心思路是,既然随机访问慢,那就在计算之前先把数据重新排列成连续的。做法分两步。第一步,把当前层的查询按固定大小分成若干组。第二步,对每一组,把它需要看的深度KV(来自前面所有层的KV对)从散落的显存位置搬到一块连续的内存区域里,重新排好,然后一次性做注意力计算。你可以理解为,不是让工人跑遍整条流水线去翻档案,而是先让一个助手把他需要的档案都搬到他工位旁边的桌子上,摆好,他坐着就能翻。在64K序列长度下,MoDA的算子效率达到了FlashAttention-2的97.3%。加了整个深度注意力机制,速度只慢了不到3%。这个数字的含义是,深度注意力不是一个轻量级插件,它让每一层都需要读取所有前序层的KV缓存。如果工程做得粗糙,这种跨层的数据依赖会把训练速度拖垮几倍。MoDA把额外开销压到了3.7%的FLOPs增量,说明分组重排策略确实把随机访问的问题解决得很干净。
可学习路由:残差连接的智能化改造
可学习路由:残差连接的智能化改造
MoDA没有动残差连接,它选择在残差之外另开一条路。同一天,Kimi团队发的Attention Residuals(AttnRes)走了一条更直接的路线,直接对残差连接本身动手。标准残差连接做的事很简单,把前面所有层的输出等权相加,堆进主干道。没有选择,没有遗忘。AttnRes把这个固定的等权加法替换成一个注意力操作,每一层用自己的状态作为查询,前面所有层的输出作为候选,用注意力来决定,前面哪些层的特征对当前层有用,权重各是多少。残差连接从一个固定公式变成了一个可学习的动态路由。
代价是每一层都要额外跑一次深度注意力计算,开销不低。Kimi团队用分块策略控制成本,把层分成若干个块,块内做完整的深度注意力,块与块之间只关注块级别的聚合表征。AttnRes已经被集成进了Kimi Linear(480亿总参数/30亿激活参数),在1.4万亿token上做了预训练,效果确认在不同模型规模下一致。两篇论文同一天出现,路线不同,靶子相同。两条路线诊断的病因完全一致,即,深层拿到的浅层信息被残差更新反复稀释了。但下刀的地方不同。MoDA没碰残差连接,而是给注意力加了一个深度维度,让深层能绕过残差流直接取浅层的原始特征。AttnRes直接对残差连接开刀,把等权加法换成了注意力加权。一个是"另修一条路",一个是"把原来那条路翻新"。
MoDA论文里最有价值的可能不是MoDA本身,而是一个关于归一化策略的实验。Transformer的每一层做完计算后都要经过一步叫"归一化"的处理,放在计算之前叫Pre-Norm,放在计算之后叫Post-Norm。2020年之后几乎所有大模型都用Pre-Norm,因为它让训练更稳定,不容易崩。但前面说的"深层空转"问题恰恰就是Pre-Norm的副作用。Pre-Norm为了稳定训练,实际上是在不断稀释深层的信号强度。MoDA的实验做了两组对比,在48层的模型上分别用Pre-Norm和Post-Norm,然后在每组上加入MoDA的深度注意力。Post-Norm配置下加入深度KV带来了0.0409的验证损失降低,Pre-Norm只有0.0041,差了将近十倍。这个数据说明的事情比MoDA本身更大,即Pre-Norm不只是在"稳定训练",它同时在系统性地压制深层的学习能力。MoDA+Post-Norm的组合打开的可能性是,过去为了训练稳定而做出的妥协,也许可以被收回了。
被遗忘的脚手架:架构演进的历史教训
被遗忘的脚手架:架构演进的历史教训
为什么深层空转这个问题到2026年才被认真对待?因为残差连接太好用了。它解决了一个当时最紧迫的问题(梯度消失),代价可控(深层退化在小模型上不明显),替代方案不成熟。没有人有动力去动它。它不是被有意保留的设计选择,而是被遗忘的临时方案。当初搭的脚手架,盖完楼忘了拆,时间一长大家以为它是承重墙。但真正让这个问题难以被发现的不是残差连接本身,而是注意力机制长期以来只在一个维度上运作。过去八年,注意力的所有进化——多头、分组查询、稀疏、线性——都是在序列维度上做文章。token和token之间怎么互相看,这件事被优化了无数遍。但层和层之间怎么互相看?这个问题根本没人问过。深度维度是注意力的盲区。
MoDA和AttnRes从不同方向把这个盲区打开了。MoDA给注意力加了第二个维度,让它能同时在序列和深度方向上运作。AttnRes把层间信息传递本身变成了一个注意力操作。路线不同,但共同指向同一个结论:注意力不该只看水平方向,它也应该看垂直方向。Karpathy说我们还没有把"Attention is All You Need"的字面意思当真。他可能说对了。但不是"注意力就够了"这个意思,而是"注意力还没有被用够"。它在序列维度上已经进化了很多代,但在深度维度上才刚刚开始。
深度学习过去十年的演进方向,如果抽象到最高层,就是一件事:把越来越多的结构性决策从人类设计者手中交还给模型自己。手工设计的卷积核被可学习的注意力替代了。固定的位置编码被可学习的旋转编码替代了。固定的专家分配被可学习的路由替代了。现在,深度维度上的信息流动方式也开始由注意力自己来决定了。深度是注意力的下一个战场。
天津智核科技认为,这场架构创新的商业意义在于,它揭示了AI产业从"算力军备竞赛"向"架构效率优化"的战略转向。当每层44%的算力在空转成为行业共识,谁能率先解决深度诅咒,谁就能在训练成本和推理效率上获得决定性优势。MoDA以3.7%的额外计算开销换取2.11%的性能提升,这个数据在架构层面也许不大,但在规模化应用中会形成指数级累积效应。更深层的启示是,Transformer架构中还有很多只在单一维度上运作的固定机制,每一层必须按顺序执行不能跳过,每个注意力头独立计算后简单拼接没有头与头之间的动态协调,每个token无论难易都走完全相同的计算路径。这些设计当初都是为了让模型能训起来能收敛的工程妥协,但现在,它们正在成为下一波架构创新的突破口。