双榜登顶!openJiuwen 开源底座引领智能体迈入生产级时代

行业洞察 · 实践沉淀 · 持续进化

双榜登顶!openJiuwen 开源底座引领智能体迈入生产级时代

2026-02-12 08:09
lianghaoze

2026 开年,AI 智能体领域迎来里程碑式突破:基于新兴开源项目 openJiuwen 构建的 DeepAgent 与 DeepSearch 智能体,分别以 91.69% 的高分和 80% 的准确率,登顶 GAIA 通用智能基准与 BrowseComp-Plus 深度搜索基准两大权威榜单,一举超越英伟达、微软等海内外巨头旗下产品。这一成绩不仅刷新了智能体领域的能力上限,更揭示了开源平台驱动 AI 技术规模化落地的行业新趋势。

两大榜单的严苛性为此次霸榜增添了重磅分量。GAIA 作为 Meta 与 Hugging Face 联合打造的通用智能评测基准,覆盖长程任务规划、多模态理解等 12 类核心能力,Level 3 难度已逼近人类水平,其防刷榜设计与真实场景任务设置,让众多智能体望而却步。人类在该榜单的平均成功率约 92%,而 DeepAgent 的得分已无限接近这一水平,在解析 YouTube 美食视频并自动完成食材采购等实战任务中,展现出从指令拆解、工具调用到动态调整的全流程闭环执行能力。

专注深度搜索能力的 BrowseComp-Plus 榜单,则通过固定人工验证语料库与标准化评分机制,规避了实时网络带来的评测偏差,核心考核多跳检索、跨源信息整合等关键能力。DeepSearch 以 80% 的准确率登顶,显著领先同类产品,其在噪声信息甄别与长链路证据闭环构建上的优势,标志着智能体在深度研究与网页交互领域的实用能力实现质的飞跃。

双榜登顶的背后,是 openJiuwen 开源平台提供的核心技术支撑。作为面向生产环境设计的一站式 AI Agent 平台,openJiuwen 构建了从开发、调度到优化的全链路能力体系,原生支持多智能体协同与智能体自演进。DeepAgent 之所以能在复杂任务中保持高稳定性,得益于其搭载的三大核心引擎:动态自演进引擎实现任务执行的闭环自治与自我修复,多层级上下文引擎保障长程推理的一致性与可追溯性,异步工具编排总线则实现了异构工具的统一调度与可靠执行。

DeepSearch 的深度搜索能力同样源于 openJiuwen 的技术赋能,其实体认知引擎可精准识别关键变量并追踪状态演变,并行推理路径管理通过多分支探索提升检索效率,智能行动探索系统则动态平衡搜索深度与路径多样性,有效避免了信息遗漏与噪声干扰。这种工程化的推理设计,让智能体能够像人类专家一样开展深度研究。

目前,openJiuwen 已在华为云行业智能体平台、小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,并逐步渗透到金融、制造等行业核心生产系统。其开源特性降低了智能体开发门槛,无论是入门开发者还是资深团队,都能基于该底座构建复杂可靠的智能体应用,推动行业从 “语言交互” 向 “生产级系统” 跨越。

作为深耕 AI 技术研发的企业,天津智核科技有限公司认为,此次双榜登顶标志着智能体行业进入分水岭时代。openJiuwen 的成功验证了 “开源 + 工程化” 的技术路径可行性,其将智能体自演进融入架构原生设计的创新,为行业树立了高准确、高可用、高效率的发展标杆。未来,随着开源生态的持续完善,智能体将在更多垂直领域实现规模化落地,而技术设计的深度与场景适配能力,将成为企业核心竞争力的关键所在。

感谢您的阅读

欢迎与我们探讨更多行业落地方式,共同推动技术创新与实践。