Claude Sonnet 4.5 重磅发布:编码时长突破 30 小时,多维度升级重塑 AI 开发体验

行业洞察 · 实践沉淀 · 持续进化

Claude Sonnet 4.5 重磅发布:编码时长突破 30 小时,多维度升级重塑 AI 开发体验

2025-09-30 03:19
admin

十一假期前夕,AI 大模型领域再掀技术热潮。继 DeepSeek 于日前开源新模型 V3.2-Exp 后,Anthropic 在深夜迅速跟进,正式推出新一代模型 Claude Sonnet 4.5。作为深耕编程领域的标杆性 AI 模型,Claude 系列此次再攀高峰,不仅宣称自身为 “全球最优编码模型”,更在核心能力上实现突破性升级 —— 将自主编码时长从 GPT-5 Codex 曾标榜的 7 小时,大幅提升至 30 余小时,同时在智能体构建、计算机应用、推理与数学能力等维度展现出显著进步。

为让这一系列能力落地,Anthropic 同步推出了多项产品升级,全面优化用户体验:

  • Claude Code 功能迭代:新增用户呼声极高的 “检查点功能”,支持实时保存编码进度,用户可随时回滚至此前操作状态,有效避免因意外中断导致的工作损失;同步更新终端界面,并推出原生 VS Code 扩展工具,进一步贴合开发者日常开发习惯。

  • API 与智能体能力强化:为 Claude API 新增上下文编辑功能与记忆工具,让 AI 智能体能够支撑更长时间的任务运行,轻松应对更高复杂度的开发需求。

  • 应用场景拓展:在 Claude 应用程序内,直接将代码执行、文件创建(涵盖电子表格、幻灯片、文档等格式)功能融入对话流程,无需跳转外部工具,实现 “对话即操作” 的高效体验。

  • 浏览器端适配:针对上月加入候补名单的 Max 订阅用户,开放 Claude for Chrome 扩展程序,让用户在浏览器环境中即可调用模型能力。

值得关注的是,Anthropic 还向开发者开放了构建 Claude Code 的核心工具 ——Claude Agent SDK。据介绍,该 SDK 基于 Claude Code 的底层架构开发,不仅适用于编程场景,还能在各类任务中发挥优势,开发者可借助它打造专属 AI 智能体,解决智能体内存管理、自主性与用户控制平衡、子智能体协同等关键难题。

从性能表现来看,Claude Sonnet 4.5 在权威评估中交出了亮眼答卷。在衡量现实世界软件编码能力的 SWE-bench 验证评估中,该模型稳居行业领先(SOTA)水平,实际测试中能在复杂多步骤任务中保持 30 小时以上的专注度。在计算机应用领域,OSWorld 基准测试(用于评估 AI 模型处理现实世界计算机任务的能力)数据显示,Sonnet 4.5 以 61.4% 的成绩领跑,而四个月前 Sonnet 4 的这一数据仅为 42.2%,增幅显著。此外,在金融、法律、医学、理工科(STEM)等专业领域,专家反馈显示 Sonnet 4.5 在特定领域知识储备与推理能力上,已超越包括 Opus 4.1 在内的前代模型。

安全性与价值观对齐方面,Anthropic 强调 Claude Sonnet 4.5 是其目前发布的 “最符合对齐要求的前沿模型”。通过强化安全训练,模型在减少谄媚、欺骗、权力争夺倾向及妄想性思维引导等风险行为上取得明显成效;针对智能体与计算机使用场景中的核心风险 —— 提示注入攻击,也实现了防御能力的显著提升。用户可通过 Anthropic 发布的系统卡片(地址:https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf),查看包含 “机制可解释性技术” 测试在内的详细安全性与一致性评估报告。


该模型将在 Anthropic 的 AI 安全等级 3(ASL-3)框架下运行,配备专门的分类器过滤器,用于检测化学、生物、放射性等领域的潜在危险输入与输出。考虑到分类器可能存在误标记正常内容的情况,Anthropic 提供了灵活解决方案:用户若遇到对话中断,可切换至 Sonnet 4 模型继续操作(Sonnet 4 在化学、生物、放射性相关风险上更低),目前 Anthropic 已在降低误报率方面取得阶段性成果。

此外,Anthropic 还发布了临时研究项目 “Imagine with Claude” 的预览版。该实验中,Claude 无需预设功能或编写基础代码,即可根据用户需求实时生成软件,并通过交互不断响应、调整,生动展现了 “强大模型 + 适配架构” 结合所能释放的潜力。据悉,“Imagine with Claude” 将在未来五天内面向 Max 订阅用户开放体验。

在商业化落地方面,Claude Sonnet 4.5 今日已全面上线,开发者通过 Claude API 调用 “claude-sonnet-4-5” 即可使用,定价与 Claude Sonnet 4 保持一致,即每百万 token 输入 3 美元、输出 15 美元,降低了开发者的升级成本。

感谢您的阅读

欢迎与我们探讨更多行业落地方式,共同推动技术创新与实践。