过去一年,DeepMind 的 FunSearch 展现过 AI 在数学发现中的潜力,MIT 等团队也提出过 AI 协作科学家(AI co-scientist)的概念,但这些探索都未触及科研核心环节的突破。直到近日,谷歌发布一篇长达 71 页的科研报告,给整个科研界带来了颠覆性变化 —— 其研发的 AI 系统不仅能独立提出科研新方法、验证实验结果,更在基因组学、公共健康等六大领域全面超越顶尖专家,将原本需要数月的科研探索压缩至几小时,科研范式正迎来历史性转折。(论文地址:https://arxiv.org/abs/2509.06503)
不止是写代码:AI 化身科研 “实证软件”,直击验证痛点
对科研人员而言,科研过程中最耗时的环节从不是提出想法,而是想法的验证 —— 为一个问题编写调试实验代码、尝试数十上百种模型参数组合,往往需要耗费数月时间。谷歌的 AI 系统恰恰攻克了这一痛点,提出了 “实证软件” 这一全新概念。
不同于常规软件仅以 “功能正确” 为评判标准,实证软件的核心目标是 “最大化预设的科研质量评分”。具体来说,它会先将科研问题抽象成 “可计分任务”,明确问题描述、衡量优劣的指标与对应数据集;随后,AI 不再是简单的 “代码助手”,而是像高速运转的实验员:先生成研究思路与可执行代码,在沙箱环境中运行测试,再通过树搜索筛选出有潜力的候选方案,让大语言模型反复改写优化代码。整个过程循环迭代,直到找到最优解。
更关键的是,这套系统的输出完全符合科研标准 —— 所有代码化解决方案均可验证、可解释、可复现,真正介入了科学研究最核心的 “假设验证与方法创新” 环节。
六大领域硬核突破:从基因测序到数学计算,全面碾压传统方法
谷歌 AI 系统的真正价值,在于其跨领域的通用性与突破性。在六个完全不同的科学领域测试中,它均交出了远超传统方法的成绩单,部分领域甚至打破了现有技术瓶颈。
基因组学:比专家方法提升 14%
单细胞 RNA 测序(scRNA-seq)数据的批次整合,是基因组学领域的核心难题 —— 不同实验批次会产生复杂技术偏差,如何消除偏差同时保留真实生物学信号,一直困扰着科研人员。
谷歌团队并未让 AI 从零开始,而是将现有主流方法(如 BBKNN,通过在各批次内为细胞找近邻、合并邻居集合实现批次校正)的文字说明输入系统。AI 在此基础上自主创新,将 BBKNN 与另一种方法 ComBat 拼接,形成了全新解法。在 OpenProblems V2.0.0 综合指标测试中,该解法比当前最佳人工方法得分提升 14%,为单细胞测序研究提供了更高效的工具。
公共健康:超越 CDC 官方预测模型
疫情期间,美国 CDC 的 CovidHub Ensemble 模型一直是新冠住院人数预测的 “黄金标准”。而谷歌 AI 系统自动生成的 14 个预测模型,经测试其集体表现全面超越了这一官方模型,为公共卫生应急决策提供了更精准的技术支撑。
地理遥感:分割精度突破 0.80
高分辨率遥感图像分割是地理信息领域的关键技术,此前传统方法始终难以突破精度瓶颈。谷歌 AI 系统生成的三种分割模型,不仅全部超越现有方法,更将分割精度(mIoU)提升至 0.80 以上。值得注意的是,这些模型并非简单复制现有架构,而是自主结合 U-Net、SegFormer 等架构与图像增强手段,展现出了主动优化的能力 —— 其生成的分割结果与人工标注高度接近,显著优于传统模型输出。
神经科学:精准预测全脑 7 万神经元活动
在斑马鱼(Zebrafish)全脑神经活动预测任务中,AI 系统不仅打败了所有现有基线方法,更创新设计出 “生物物理模拟器 + 深度模型” 的混合模型。其中,TS-Jaxley 模型通过融入生物物理模拟器,既降低了预测误差,又提升了结果的可解释性,为神经科学研究提供了全新思路。
数学:攻克 17 个 “难啃” 积分任务
数学计算尤其是复杂积分,一直是考验算法能力的 “试金石”。谷歌团队选取了 19 个异常棘手的积分任务,结果显示:传统标准数值方法几乎全军覆没,而 AI 系统成功求解了其中 17 个。这意味着,在科研人员长期困扰的数值计算领域,AI 已能提供可靠可用的解决方案。
时间序列:零起步构建通用预测库
在通用时间序列预测的 GIFT-Eval 基准测试中,AI 系统完成了一项 “近乎不可能” 的任务:从零开始,仅通过一段初始代码反复优化,最终构建出覆盖 28 个数据集、跨越 7 个领域、适配 “秒到年” 10 种频率的通用预测库。这一突破证明,AI 不仅能解决具体科研问题,还能自主总结通用方法,攻克了科研中最难的 “跨领域泛化” 难题。
科研范式转折:AI 负责 “试错创新”,人类聚焦 “方向决策”
六大领域的突破背后,更值得关注的是科研分工的重构 ——AI 已不再是辅助工具,而是能独立完成 “方法创新 - 实验验证 - 结果优化” 全流程的科研合作者。
过去,科研人员依靠 “反复试验” 推进研究,而谷歌 AI 系统能以相同逻辑进行大规模试错,且速度提升数百倍:原本需要数月的探索,现在几小时就能完成。这种效率提升,不仅意味着科研节奏的 “指数级加速”,更重新定义了人类与 AI 的科研分工:
AI 负责 “技术落地”:承担成千上万种方案的尝试、优化与筛选,以高效性攻克技术路径难题;
人类聚焦 “价值判断”:提出科研方向、判断问题价值、定义研究优先级 —— 毕竟,科研问题的意义、背后的社会价值,仍需人类主导设定。
这种分工格局下,AI 成为了 “高效实验员与方法发明者”,人类则站在更高维度把握科研方向,二者形成互补协同。
开放共享:让 AI 科研成果惠及整个科研界
为推动科研界共同进步,谷歌采取了开放姿态:不仅将系统产出的最佳方案全部开源,还提供了交互界面,方便研究人员追踪整个 AI 的 “搜索 - 突破” 过程。这意味着,全球科研人员都能在真实任务中直接验证、扩展这些 AI 生成的解法,加速各领域的科研创新。
从 FunSearch 的数学发现,到 AI co-scientist 的协作探索,再到如今谷歌 AI 系统的跨领域突破,AI 正在从 “科研辅助” 走向 “科研核心”。未来,随着这类技术的普及,科研效率或将迎来新一轮飞跃,更多原本 “耗时耗力” 的基础研究,有望借助 AI 实现快速突破。