刚刚,DeepSeek-V3.2-Exp 开源了!该模型参数量为 685B,HuggingFace 链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp ,此外,此次发布竟然也同步公开了论文,公开了 DeepSeek 新的稀疏注意力机制,为我们提供了更多结束细节:
DeepSeek 新稀疏注意力机制 DSA(DeepSeek Sparse Attention)是 DeepSeek-V3.2-Exp 模型中引入的一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。
核心特点:DSA 是 DeepSeek-V3.2-Exp 版本的唯一架构改进,其首次实现了细粒度稀疏注意力,能够在保持几乎相同的模型输出质量的同时,显著提高长上下文训练和推理效率。
设计目标:代表了 DeepSeek 对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率,是迈向下一代架构的过渡。
性能表现:DeepSeek 将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行对比,结果显示在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当,这表明 DSA 在提升效率的同时未显著影响模型性能。
此外,DeepSeek 曾在 2025 年 2 月发布过 NSA(Natively Sparse Attention,原生稀疏注意力机制)。NSA 与 DSA 原理类似,都是让 AI 在处理信息时动态筛选出真正重要的部分,忽略冗余信息,从而降低计算量。NSA 通过动态分层稀疏策略,结合粗粒度的 token 压缩和细粒度的 token 选择,以保留全局上下文感知能力和局部精确性1。而 DSA 是在此基础上,针对长上下文场景训练和推理效率优化的进一步探索。
那新的DSA新稀疏注意力机制与传统的DSA有什么区别呢?
新稀疏注意力机制 DSA 和原生稀疏注意力机制 NSA 均为 DeepSeek 提出的用于优化注意力计算效率的机制,DSA 是 NSA 的优化和改进版本1。二者主要区别如下:
设计重点
NSA:侧重于结合算法创新和硬件优化,实现高效的长上下文建模。通过动态分层稀疏策略,将粗粒度标记压缩与细粒度标记选择相结合,在保持全局上下文感知能力和局部精确性的同时,提高 Tensor Core 的利用率和内存访问效率。
DSA:更聚焦于在长上下文场景下对训练和推理效率的优化,是 DeepSeek 对更高效的 Transformer 架构的持续研究成果,旨在进一步降低计算量,提高模型处理扩展文本序列时的计算效率。
核心组件1
NSA:通过块级聚合获取压缩键值,基于硬件效率和注意力分数分布,块级选择重要令牌,并引入滑动窗口分支处理局部上下文,各分支独立计算并通过门控机制聚合,还基于 Triton 实现了硬件对齐的稀疏注意力内核。
DSA:引入了 “闪电索引器” 这一关键组件,它能快速判断对于当前正在处理的元素,序列中哪些历史元素是最重要的,然后模型只从这些重要元素中选取一小部分进行精细计算,从而降低计算量。
性能表现
NSA:在通用基准测试中,多数指标优于全注意力模型;在 64k 上下文检索任务中表现出色,在 LongBench 基准测试中平均得分最高;在 AIME 基准测试中,NSA-R 的准确率显著高于全注意力模型。在 8-GPU A100 系统上,64k 上下文长度时,训练前向加速 9.0 倍,反向加速 6.0 倍,解码速度提升可达 11.6 倍。
DSA:目前主要是与 DeepSeek-V3.1-Terminus 进行对比,结果显示在各个领域的公开基准测试中,采用 DSA 的 DeepSeek-V3.2-Exp 表现与 V3.1-Terminus 相当,说明在提升效率的同时未显著影响模型性能,具体的加速倍数等未提及更多详细数据。