2025 年 9 月 29 日,AI 领域传来重磅消息 ——DeepSeek 正式宣布开源旗下DeepSeek-V3.2-Exp 实验版大模型。该模型创新性引入DeepSeek Sparse Attention(简称 DSA)稀疏注意力机制,在几乎不影响输出质量的前提下,大幅提升长文本训练与推理效率,被官方定位为 “向新一代模型架构迈进的关键实验步骤”,引发行业广泛关注。
目前,开发者可通过 HuggingFace(https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)与魔搭社区(https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp)获取该模型资源。伴随架构优化而来的,还有显著的成本下降:DeepSeek 同步调整 API 定价策略,开发者调用成本直降 50% 以上,其中输出 token 价格降幅最为突出 —— 输出 100 万个 token 仅需 3 元,相当于上一代 DeepSeek-V3.1 系列模型的 1/4,极大降低了开发门槛。
截至 9 月 30 日清晨 6 时,产业链上下游企业已快速跟进。华为云、PPIO 派欧云、优刻得等云服务平台率先上线 DeepSeek-V3.2-Exp,华为、寒武纪、海光信息等国产 AI 芯片厂商也同步宣布完成模型适配,形成 “芯片 - 云平台 - 模型” 协同响应的局面。
值得注意的是,DeepSeek-V3.2-Exp 基于 DeepSeek-V3.1-Terminus 迭代开发,在公开评测集的各领域表现中与前代基本持平,但完成任务所需的 token 量显著减少。当前,DeepSeek 的 App、网页端及小程序已全面搭载该新模型,同时临时保留了 DeepSeek-V3.1-Terminus 的 API 接口,方便开发者进行效果对比与验证。此外,DeepSeek 还开源了配套技术报告(https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)与代码,并提供 TileLang、CUDA 双版本 GPU 算子,为研究者提供多维度优化实验的可能。不过官方也提醒,作为实验性版本,该模型虽通过公开评测验证有效性,仍需在真实应用场景中进一步测试,以排除特定场景下的性能波动风险。
国产厂商 “零延迟” 适配,开发者热议 “新 DeepSeek 时刻”
DeepSeek-V3.2-Exp 的发布,迅速点燃国产 AI 产业链的响应热情,多家企业实现 “Day 0(首日)适配”,展现出强劲的技术协同能力。
华为计算通过官方公众号披露,其昇腾平台已基于 vLLM、SGLang 等主流推理框架完成适配部署,不仅开源全部推理代码与算子实现,还在性能上实现突破 —— 在昇腾设备上处理 128K 长序列时,首 token 输出耗时(TTFT)可控制在 2 秒以内,每 token 输出耗时(TPOT)低于 30 毫秒,兼顾效率与体验。与此同时,华为云也首发上线该模型,并依托 CloudMatrix 384 超节点为其提供推理算力支持。
寒武纪的响应速度更为惊人 —— 在 DeepSeek 官宣模型开源后的仅 4 分钟,便宣布同步完成 Day 0 适配,并开源大模型推理引擎 vLLM-MLU 源代码。据了解,寒武纪通过 Triton 算子开发实现快速兼容,借助 BangC 融合算子优化性能,同时采用 “计算 - 通信并行” 策略提升计算效率。考虑到 DeepSeek-V3.2-Exp 模型文件达 671GB,下载需数小时,如此迅速的适配进度,业内推测双方或在模型发布前已启动协同开发。
海光信息也不甘落后,其深度计算处理器(DCU)率先实现对该模型的 Day 0 级高效适配与优化,确保大模型可 “零等待” 部署,进一步完善了国产芯片的生态支持能力。
在开发者社区,新模型同样引发热烈讨论。有用户分享测试体验称,在包含 10 万个 token 的代码库测试中,DeepSeek-V3.2-Exp 的处理速度提升 “肉眼可见”;还有开发者调侃 “API 成本几乎等同于免费”,认为该模型或将推动更多中小团队开展 AI 应用开发。更有声音指出,此次架构创新与生态响应,可能预示着 “第二个 DeepSeek 时刻” 即将到来 —— 如同此前该品牌凭借技术突破引发行业关注一般,此次新模型或再度重塑市场格局。不过,HuggingFace 社区也有有趣的 “吐槽”:有中国开发者发现 DeepSeek 多次模型更新均卡在节假日前夕,调侃 “难道是不想让大家好好过节?”
实测新模型:效率提升显著,架构创新价值凸显
为直观感受 DeepSeek-V3.2-Exp 的实际表现,我们针对编程、信息检索两大核心场景,与上一代 DeepSeek-V3.1-Terminus 进行对比测试,结果呈现 “效率提升、能力微调” 的特点。
在编程任务中,DeepSeek-V3.2-Exp 的输出风格更为简洁 —— 完成相同功能时,代码行数明显少于前代模型。但简洁性也带来一定局限:例如在编写小球弹跳动画代码时,新模型输出的代码未能正常运行,小球出现 “飞出六边形范围” 的问题,而 DeepSeek-V3.1-Terminus 此前测试中可完美完成该任务。
信息检索场景的测试同样反映出类似特点。我们要求模型推荐 “适合新手阳台盆栽、生长快、果实可生吃、对儿童绝对安全” 的植物,并附上简易播种技巧。对比结果显示,DeepSeek-V3.2-Exp 的回答更为精炼,用词也更朴素,但推荐的无花果、百香果等植物,实际需要扦插繁殖、高频养护,与 “新手友好” 的需求存在偏差;而前代模型的推荐更贴合需求,还补充了 “土壤选择”“浇水频率” 等细节建议。
知乎博主 @toyama nao 的测评也印证了这一现象,其指出 DeepSeek-V3.2-Exp 在 “工作记忆、计算精度稳定性” 上存在明显短板,偶尔会出现 “偷懒倾向”(如简化推理步骤),甚至有陷入死循环的可能。有网友在社交平台质疑:“如果能力有所降级,我们为何要选择新模型?”
不过,若跳出 “单一功能对比”,从技术演进视角看,DeepSeek-V3.2-Exp 的核心价值更在于架构创新。据官方介绍,该模型与前代的唯一架构差异,便是引入了 DSA 稀疏注意力机制 —— 这一机制目前处于原型阶段,由 “Lightning Indexer(闪电索引器)” 与 “细粒度 token 选择机制” 两大组件构成。其核心逻辑是:通过 Lightning Indexer 快速评估 “查询 token” 与 “历史 token” 的相关性,再由选择机制筛选出最相关的上下文参与注意力计算,将传统注意力机制的 “二次方复杂度” 降至 “近似线性复杂度”,从根本上降低训练与推理的算力消耗。
这种架构创新的实现,依赖于独特的训练策略。DeepSeek 采用 “继续预训练 + 后训练” 两步走方案:预训练阶段先在 “稠密模式” 下短期训练索引器,使其输出与标准注意力机制对齐;随后引入稀疏选择机制,让模型逐步适应新计算方式。后训练阶段则通过 “专家蒸馏” 与 “混合强化学习” 优化性能 —— 前者针对数学、编程、推理等领域训练专项专家模型,再将知识压缩至通用模型;后者则将推理能力、智能体功能、人类对齐训练整合到同一强化学习(RL)阶段,避免传统多阶段训练中常见的 “知识遗忘” 问题。
技术报告数据进一步验证了架构创新的价值:尽管 DeepSeek-V3.2-Exp 在个别推理类测试中分数略有下降(官方解释 “主要因推理 token 输出减少,使用中间检查点可缩小差距”),但在 H800 GPU 环境下,长序列推理开销显著降低,证明 DSA 机制具备极强的实际部署价值。同时,新模型的训练曲线与前代保持相似稳定性,说明该架构在收敛性上无额外风险,为后续优化奠定了基础。