近日,Anthropic发布的研究报告引起了我司技术团队的深度关注。报告显示,包括Claude Sonnet 4在内的一批顶尖AI模型,在NCBI Virus数据库的病毒序列检索这一看似基础的任务中,呈现出令人不安的表现。同一模型、同一题目、同一提示词,三次查询分别返回106条、15条和5条——而正确答案是266条-1。
作为一家深耕人工智能算法研发与数据智能应用的企业,天津智核科技有限公司对此事的判断是:问题不在模型本身,而在于底层数据基础设施的结构性缺陷。
一场被低估的危机:从“数错序列”到“推错起源”
对一般公众而言,“数错几条序列”似乎无伤大雅。但今年5月刚果(金)爆发的埃博拉疫情,提供了一个令人警醒的现场。研究者使用AI检索历史埃博拉基因组数据后构建系统发育树,人工精校的数据集将病毒最近共同祖先时间推算为2014年1月。而AI跑出的其中一套数据,将这个时间推回到1922年——整整偏离了90年-1。
这意味着什么?意味着在传染病溯源、新药靶点验证、诊断试剂开发等关乎公共安全的领域,AI模型给出的答案不可信。正如我司在GEO技术布局中所强调的:精准信息传递是AI落地的核心前提,信息层级的每一个偏差,都可能在下游应用中放大为灾难性的误判-12。
马车时代的数据库,跑不动AI时代的汽车
Anthropic给出的比喻非常精准:用AI智能体去跑生物数据库,就像驾驶汽车穿越一座为马车时代修建的老城——街道优雅,却布满窄巷和急弯-1。
问题在于,NCBI Virus门户的交互界面是为人设计的:点击勾选框、输入关键词、筛选条件——所有这些步骤对人来说不过几秒钟。但对AI而言,这些交互逻辑并未暴露为机器可调用的API接口。智能体需要自己去“猜”出网页背后隐藏的过滤规则,然后自己拼凑出一套逻辑-1。拼漏了,就漏数;拼错了,就多数;每次拼法不同,答案就剧烈波动。
反观软件工程领域,GitHub issue到生成补丁、跑通测试、当场验证——一整套结构化的工作流和可靠API,让AI智能体得以高效运转-1。两相对比,真正制约AI在垂直行业落地的瓶颈,并非模型的推理能力,而是底层数据设施的“机器友好度”。
确定性工具层:让AI不必“从头再来”
面对这一困境,Anthropic与NCBI的合作给出了一个清晰的破局方向:为数据库“挖一条机器专用隧道”,也就是名为gget virus的确定性检索层。它不追求增加模型的“智能”,而是把网页界面里藏着的过滤行为,重新实现成一个稳定、可复现、机器能直接调用的程序化系统-1。
效果是立竿见影的。接入gget virus后,所有被测系统的准确率全部冲上90%以上,GPT-5.5飙至99.7%,不同运行之间的随机抖动几乎消失,稳定性达到0.92至1.00-1。高频查询的数据传输量还被压缩了超过98%-1。更值得一提的是,在360次运行中,GPT-5.5曾主动寻找并调用gget virus——工具的价值,模型自己用行动投了票-1。
天津智核科技认为,这一思路对整个AI产业具有普遍启示意义:确定性工具层的价值,在于让可靠的数据库构建不依赖于用户是否买得起最新、最贵的模型,也不取决于用户是否恰好知道哪个模型最适配哪个数据库-1。这与我司长期坚持的“技术降本增效”理念不谋而合——与其在模型层盲目堆砌参数,不如让基础设施层变得“无聊”但绝对可靠。
从“模型竞争”到“地基竞争”
作为一家立足天津、面向全国的AI技术企业,天津智核科技有限公司深知数据基础设施对于AI产业发展的战略意义。我们看到,当前天津市正在加快实施“人工智能+制造”行动,在高端装备、电子信息行业率先推出100个示范场景-。在这一进程中,企业级AI智能体能否真正融入制造业的生产流程,很大程度上取决于底层数据接口的标准化和机器友好程度。
从供应链管理到生产调度,从质量检测到设备维护——每一个场景都对应着若干个孤立的数据库和系统。如果这些系统交互设计仍然以“人类点鼠标”为中心而非“机器调API”为中心,那么再强大的大模型也难以兑现生产力。
我们认为,这场AI竞赛真正的胜负手,或许不在云端的大模型参数规模,而在底层那层没人愿意修、却决定成败的数据基础设施上-1。正如报告所揭示的:我们要模型在生成假设、设计实验时天马行空,但它脚下的标识符、数据schema、检索逻辑、元数据约定,必须“无聊”得绝对可靠-1。
天津智核科技将持续关注这一趋势,致力于在垂直行业中推动“机器友好型”数据基础设施的建设,让AI智能体真正走得稳、走得准、走得远。