一周3.3k star，微软SkillOpt让Agent技能像神经网络一样自我进化

优化在智能体应用日益深入的今天，一个尴尬的现实正在浮现：越来越多的开发者花费大量时间手写 CLAUDE.md、Codex skill 文件和各种 Agent 的 system prompt。写一版，跑几个任务看看效果，觉得不对再改——这个过程和此前手调 prompt 没有本质区别，只是对象从一句话变成了一整份文档。我们本想用更智能的AI帮我们干活，结果反过来在教AI怎么干活。

微软本周开源的 SkillOpt 框架，正试图终结这一悖论。这个将Agent技能文档视为「可训练参数」的文本空间优化框架，让技能文档能够像神经网络权重一样自我进化。上线一周即收获 3.3k GitHub star，在7个目标模型、6个基准测试、3种执行环境的全部 52个评测组合中，SkillOpt训练出的技能文档全部达到最优或并列最优。

一、范式跃迁：从手工试错到系统化训练

SkillOpt的核心洞察可以用一句话概括：Agent的技能文档就是它的「外部权重」。既然内部权重可以用梯度下降优化，外部权重也应该有一套系统化的训练方法。这一思路将传统深度学习训练循环完整映射到文本空间：

图1：从传统手工调参到SkillOpt自动化技能进化的范式跃迁

Rollout（前向传播）：冻结的目标模型拿着当前版本技能文档执行一批任务，记录完整轨迹——包括消息、工具调用、验证反馈和最终得分。这产出的是「证据」，相当于神经网络的前向传播结果。

Reflect（反向传播）：独立的优化器模型分析执行轨迹。关键设计在于，失败案例和成功案例被分开反思——失败minibatch发现「哪些规则需要修正」，成功minibatch确认「哪些规则在起作用不能动」。这相当于计算「文本空间的梯度」。

Edit（参数更新）：优化器基于反思结果，提出结构化编辑操作：添加新规则（add）、删除失效规则（delete）、替换需修正规则（replace）。

Gate（验证门控）：候选技能文档必须在held-out验证集上跑一遍，只有性能严格提升时才被接受。这防止过拟合，确保每次更新都是真正的改进。

二、训练循环架构：文本空间的深度学习工程

SkillOpt的训练循环设计展现了深刻的工程智慧。整个流程跑多个epoch，每个epoch内跑多个step，与训练神经网络的节奏完全一致。但文本空间有其独特挑战，SkillOpt通过三项关键机制予以解决：

图2：SkillOpt训练循环架构——Rollout × Reflect × Edit × Gate 四阶段闭环

文本学习率（Textual Learning Rate）：每一步允许的编辑操作数量有上限（默认lr=4，即每步最多4个add/delete/replace）。这个约束迫使优化器每次只做小幅调整，防止「学了新东西就忘了旧东西」的灾难性遗忘。消融实验证实其必要性：去掉学习率约束后，SearchQA从87.1%降到84.6%，SpreadsheetBench从77.5%降到75.7%，LiveMath从61.3%降到57.3%。

Rejected-Edit Buffer（负反馈记忆）：被验证门控拒绝的编辑不会简单丢弃，而是进入缓冲区。优化器在后续反思中可以看到这些「失败尝试」，避免重复提出无效编辑。这相当于提供负梯度信息——不仅知道该往哪走，还知道哪些方向走不通。去掉该机制后，SpreadsheetBench从77.5%骤降到72.9%。

Slow Update与Meta Skill（长期记忆）：每个epoch结束时，对所有被接受的编辑做纵向对比分析，找出跨step的一致性模式，产出更大范围的更新。优化器自身也有一份「元技能」文档，记录优化过程中积累的经验（如「对这个benchmark，关注工具调用格式比关注推理步骤更有效」）。关键的是，这两个机制只在训练时存在，部署时零推理开销。

三、52项评测全面领先：跨模型、跨环境、跨任务

SkillOpt的评测覆盖面极为全面。目标模型从最强的GPT-5.5到4B参数的小模型Qwen3.5-4B均有覆盖；基准测试涵盖SearchQA（问答）、SpreadsheetBench（代码生成）、OfficeQA（工具增强问答）、DocVQA（文档视觉问答）、LiveMath（数学推理）、ALFWorld（具身智能体）；执行环境包括直接对话、OpenAI Codex、Anthropic Claude Code三种主流框架。

图3：SkillOpt在6个基准测试上全面超越最强基线方法的表现

在全部52个评测组合中，SkillOpt达到最优或并列最优。对比6种基线方法（无技能、人工编写、LLM一次性生成、Trace2Skill、TextGrad、GEPA），SkillOpt在每个benchmark上都超越了最强基线：SearchQA +1.9分、SpreadsheetBench +4.4分、OfficeQA +4.1分、DocVQA +1.7分、LiveMath +9.2分、ALFWorld +8.9分。

智核科技洞察：小模型的提升幅度反而更大——GPT-5.4-nano平均提升+24.9分，DocVQA提升49.4分。这说明一份好的技能文档对「能力较弱模型」的帮助远大于对「专家级模型」的帮助。这个直觉在AI Agent上同样成立：好的操作手册对新手的价值最大。

四、迁移与部署：一次训练，零推理开销，全场景复用

SkillOpt训练出的技能文档展现出强大的迁移能力，这对企业级部署具有重要价值：

图4：SkillOpt技能文档的跨模型、跨环境迁移能力与零推理开销部署

跨模型迁移：在GPT-5.4上训练的LiveMath技能，直接迁移到GPT-5.4-nano上使用，提升15.2分，无需针对小模型重新训练。

跨环境迁移：在Codex环境中训练的SpreadsheetBench技能，直接迁移到Claude Code环境，提升31.8分。这意味着在一个Agent框架里优化好的技能文档，换到另一个框架里依然有效。

自优化：即使GPT-5.4-nano同时作为目标模型和优化器模型（自己优化自己），SpreadsheetBench上仍提升10.4分。这说明SkillOpt的训练循环本身提供了足够的结构化约束，即使优化器不比目标模型更强，也能发现有效改进方向。

部署极简：最终部署时只需要一个best_skill.md文件，不需要优化器模型，不需要记忆模块，不需要任何额外推理开销。这是企业级AI落地最关心的工程特性——训练复杂，推理简单。

智核科技研判：SkillOpt代表了一个重要的范式转变：人类在AI工作流中的角色又往后退了一步。从手调prompt到手写skill文档，再到skill文档自动进化，AI系统的「可训练边界」正在从模型内部权重扩展到外部行为指令。对于正在构建Agent生态的企业而言，这意味着需要重新思考「人机分工」——人类定义目标和约束，机器负责探索和优化执行路径。SkillOpt的文本学习率、验证门控和负反馈缓冲等机制设计，也为企业构建自有Agent优化体系提供了可直接借鉴的工程模板。