当大多数人还在讨论大模型参数规模时,DeepSeek研究员陈德里(Deli Chen)已经带领他的AI科研智能体完成了第二篇学术论文。这篇聚焦持续学习(Continual Learning)与自我迭代(Self-Iteration)的综述论文,不仅标志着AI自主科研能力的实质性跃升,更揭示了一个核心命题:未来的AI系统不会长期停留在冻结参数的形态,而必须进化为能够持续学习、自我更新、自我迭代的动态系统。
一、从6分到8分:自主科研智能体的进化信号
陈德里搭建的自主科研智能体框架DeliAutoResearch SKILL,在两篇论文的生成过程中展现出清晰的进化轨迹。第一篇论文的模拟同行评审分数为6.0分,第二篇跃升至8.0分——这不是简单的数字变化,而是系统能力结构性升级的外显。
图1:DeliAutoResearch SKILL 从 Paper #1 到 Paper #2 的进化轨迹——交互轮数下降、Token消耗上升、自主性增强
更具指标意义的是生产数据的变化:第二篇论文的Agent交互轮数从约108轮大幅下降至18+轮,而总Token消耗却从约64.8万激增至158万。在智核科技看来,这是一个"好信号"——人工介入变少了,系统自主设计和运行的部分变多了。模型首次尝试调用更高级的语言模型自主设计并运行实验,这是此前版本尚不具备的能力。
智核科技洞察:"交互轮数下降+Token消耗上升"的组合,恰恰说明SKILL正在从"人机协作模式"向"自主执行模式"转型。对于一个自动科研工作流而言,这是走向更高自主性的关键信号。陈德里本人也坦言,当前目标并非打磨单篇论文,而是持续迭代SKILL框架本身。
二、三轴统一框架:持续学习与自我改进的系统化解构
论文最核心的学术贡献之一,是提出了首个同时覆盖大语言模型持续学习与自我改进的统一分类框架。传统研究中,这两个方向往往被割裂对待,但它们面对的是同一个底层问题:模型如何在接收新信息后更新自己,同时不破坏已有能力?
图2:持续学习与自我改进的三轴统一分类框架——What(更新什么)、How(如何更新)、When(何时更新)
该框架建立在三个相互正交的维度之上:更新什么(知识、技能、对齐能力还是推理能力)、如何更新(外部信号、自生成信号还是架构适配)、何时更新(离线、在线、周期性或事件触发)。这一框架不仅能够对任何部署后的学习系统进行精确刻画,更揭示了不同方法之间此前未被充分认识到的深层联系。
基于这一框架,论文系统梳理了100多篇相关研究,将其归纳为五大方法类别:基于正则化的持续学习、回放与经验管理、参数高效与模块化方法、自我改进与自博弈,以及在线自适应方法。每一类方法都经过了形式化描述、理论性质分析和代表性方法比较。
三、收敛还是坍塌?自我改进的理论边界
论文对自我改进的收敛条件进行了形式化分析,这是该领域此前缺乏的系统理论工作。核心发现是:自我改进的轨迹并不取决于生成机制有多复杂,而取决于评估信号(Grounding Signal)的质量,以及它相对于模型自身的独立性。
图3:自我改进的三种轨迹——收敛型(STaR/SPIN)、平台型(Self-Refine/ReST)与坍塌型(self-consuming)
论文将自我改进轨迹划分为三种类型:收敛型(如STaR、SPIN,借助外部验证或人类数据锚定,性能持续提升)、平台型(如Self-Refine、ReST,几轮迭代后耗尽可纠正错误,进入性能平台期)、坍塌型(缺乏锚定信号,模型陷入自我确认循环,最终退化)。可靠的锚定信号可以是验证器、宪法原则、人类偏好数据,也可以是问题本身的结构——没有这样的信号,自我改进必然走向坍塌。
智核科技研判:这一发现对企业级AI部署具有重要启示。当前许多企业试图通过"模型自我迭代"降低标注成本,但如果缺乏独立的验证机制,迭代过程很可能从"自我提升"滑向"自我欺骗"。企业在构建AI反馈循环时,必须配套建设独立的评估与验证体系。
四、六大开放挑战:通往AGI的持续学习之路
论文最后提出了持续学习走向成熟过程中亟待解决的六大关键挑战,为行业指明了未来研究方向:
图4:持续学习与自我改进走向成熟面临的六大开放挑战
灾难性遗忘与Scaling Law:更大的模型确实可能更不容易遗忘,但规模不是根治方案。随着任务持续增加,即使大模型也会遇到容量、干扰和对齐漂移问题。未来需要研究大模型规模如何影响稳定性-可塑性权衡,以及是否存在可预测的Scaling Law。
自我改进的理论极限:模型能否无限自我提升?何时收敛、何时坍塌?尤其是在缺少外部验证器的语言任务中,模型很容易陷入自我确认——不断强化自己已经相信的模式,而不一定更接近真实目标。
多模态持续学习:未来模型不只处理文本,还会处理图像、音频、视频和行动数据。一个模态的更新可能影响另一个模态,如何跨模态保留能力是关键难题。
安全的持续对齐:任何更新都可能削弱原有对齐能力。未来需要"可证明安全"的持续对齐机制——模型变得更强的同时,安全约束不能被遗忘或绕过。
部署时实时学习:实时服务要求低延迟和高稳定性,而在线学习需要计算梯度、更新参数、验证质量——这两者天然冲突。需要设计分层更新机制,区分即时处理、延迟批处理和安全审查后再入参。
与Agent框架结合:智能体在长期任务中积累的经验(工具调用结果、失败教训、用户偏好、环境反馈)何时写入长期记忆、何时更新参数、哪些是偶然事件、哪些代表稳定规律?需要层级记忆架构和多智能体持续学习机制。
智核科技总结:陈德里的这项工作,以及DeliAutoResearch SKILL框架的迭代本身,共同指向一个核心判断:持续学习和自我改进正在走向融合。真正有前景的方向,是构建既能吸收外部世界新知识、又能利用自我反思和自我验证来改进学习策略的模型——不只是训练得更大,而是能不能在不遗忘、不失控的前提下,持续学习、持续对齐、持续自我进化。对于正在布局AI战略的企业而言,理解这一演进逻辑,比追逐单一模型的跑分更有意义。