王兴兴的豪赌:G1经典定位与具身智能的80/80时刻

行业洞察 · 实践沉淀 · 持续进化

王兴兴的豪赌:G1经典定位与具身智能的80/80时刻

2026-03-18 01:26
lianghaoze

宇树科技创始人兼CEO王兴兴在GTC 2026大会上放出了豪言壮语:G1人形机器人"全世界都在学",并且"即使再过十年、二十年回头看,这款机器人也会是很经典的一代产品"。这种自信背后,是宇树科技在过去一年交出的亮眼成绩单,以及对具身智能未来发展的深度洞察。王兴兴认为,具身智能距离真正的"ChatGPT时刻"仍有一段距离,但这一临界点最快1-2年,最长2-3年就会到来。当机器人能够在80%的陌生场景中,仅通过语言指令完成80%的任务时,具身智能将迎来历史性突破。

G1产品矩阵:从经典到全面的战略布局

G1产品矩阵:从经典到全面的战略布局

G1产品矩阵:从经典到全面的战略布局

宇树科技的产品矩阵正在从单点突破走向全面布局。2024年5月发布的G1人形机器人,身高约1.3米,重量几十千克,具备高自由度的腿部和手部,传感器配置完整,整机紧凑度极高。这款机器人以其小巧、紧凑、性价比高的特点,在全球范围内获得了广泛关注,不少国内外用户都在使用它,甚至其他公司也在研究、借鉴这款机器人的设计方案。王兴兴对G1的定位非常清晰:这是一款经典产品,即使再过十年、二十年,依然会是一款经典机型。

但宇树科技并没有止步于G1的成功。去年,公司发布了中型工业级机器狗A2,各项性能指标突出,可进行室内外巡检等工作;同时发布了身高1.8米的大尺寸人形机器人H1,整机比例更像人,灵活度更好,更适合工厂、农业等体力型工作场景。前段时间,公司又发布了小型机器狗As2,具备基本防水能力,负载能力达十几千克,续航时间较长,希望未来能真正帮助用户完成徒步、旅行中的负重任务。从消费级到工业级,从四足到人形,宇树科技正在构建一个完整的产品生态。

运动能力升级:从炫技到实用的跨越

运动能力升级:从炫技到实用的跨越

运动能力升级:从炫技到实用的跨越

在运动性能方面,宇树科技去年取得了显著突破。人形机器人H1在长跑1500米项目中,用时约6分钟,已经超过一般普通人。除了硬件性能提升,软件算法也进行了大量升级,包括自动化控制、任意动作下的抗冲击能力、摔倒后自主起身等。这些技术的实用价值极高,因为机器人想要大规模应用,稳定性必须足够好,即使在极端情况下也要能自我恢复。

机器人的算法对硬件的适配能力较强,在不同机型上的泛化表现相对更好。理论上,现在人类可以做的很多动作,机器人都已经可以尝试去完成。当然,一些特别复杂的动作,比如涉及很大侧向力或地面比较滑的动作,仍会遇到挑战。但在全身深度强化学习方面,很多核心问题已经基本解决,接下来更多是继续完善。去年下半年,公司还做了比较完整的全身遥操作,这对大规模数据采集非常有价值。

春晚背后的技术突破:从单个动作到系统能力

春晚背后的技术突破:从单个动作到系统能力

春晚背后的技术突破:从单个动作到系统能力

今年2月,宇树科技参与的春晚节目在国内外都获得了热烈反馈。为了这个节目,王兴兴几乎把能找到的中国传统功夫动作都梳理了一遍,最初筛选了上百个动作,最后保留了几十个有代表性的动作,包括醉拳、双截棍、舞棍、舞剑等经典内容。同时,公司也挑战了一些高难度动作,比如原地连续空翻,对电机和腿部负载压力非常大;上墙动作也挑战了更高难度,不只是单步,而是做更高、更有视觉冲击力的动作。

在节目中,机器人进行了专门改装。头部激光雷达换成了128线3D激光雷达,并调整了朝向,让机器人能够看到周围更多信息。更重要的是,公司使用的是预训练的全身RL模型,而不是单独训练一个RL模型。这种做法的复合能力更强,训练和调试更方便,也更利于快速走位、复杂动作组合,以及不同硬件之间的兼容。简单来说,现在做复杂动作时,理论上可以让机器人瞬间停下来,停稳之后再瞬间切到下一个动作。如果用更早期的技术路线,很多单动作策略是没法这样中途暂停和切换的。此外,公司还开发了全身状态感知模型,让机器人在动作过程中更好地完成感知和决策,同时也做了集群控制系统,可以调动几十台甚至上百台机器人完成复杂走位和编队。

运动与干活同步:具身智能的必经之路

运动与干活同步:具身智能的必经之路

运动与干活同步:具身智能的必经之路

王兴兴强调,运动能力和干活能力都非常重要,而且必须同步推进。某种意义上,运动能力还是干活能力的前提。机器人要干活,首先要满足两个条件:第一,它的动作表达必须足够丰富,能够做出各种各样的动作;第二,它在做这些动作的时候必须足够稳定。如果连这两点都做不到,就很难谈真正的干活能力。

这有点像动物。比如蚂蚁、老鼠、狗,它们的大脑未必非常发达,但运动能力照样很强。所以运动智能某种程度上是一个相对更容易实现、也是必然要先做好的能力。先把身体能力做出来,再把"大脑"和"干活模型"做得更好,这是必要路径。过去几年,宇树科技一直在推动机器人干活这件事,但客观来说,这件事在全球范围内依然都很难。公司一直希望机器人真正去生产机器人,所以前段时间也在开发相关模型,并尝试把它们用到人形机器人上,让人形机器人进入工厂,去生产人形机器人。现阶段,如果是特别复杂的工位,比如装配关节模组,因为零部件多、工序复杂,成功率还不是特别高。但如果是抓取单个零部件,或者一两个零部件组成的相对简单动作,在训练完成后,基本可以做到接近百分之百的成功率。

三大瓶颈:迈过"ChatGPT时刻"的关键挑战

三大瓶颈:迈过

三大瓶颈:迈过"ChatGPT时刻"的关键挑战

王兴兴认为,要迈过具身智能的"ChatGPT时刻",行业至少还要解决三件事:

第一,提高模型对任务和动作的表达能力,突破泛化瓶颈。现在很多模型,连"表达"本身都还不够强。它可能只能做一些基础动作,但如果要让它做任意动作、实时生成动作,或者更高级、更复杂的动作,模型本身还很难完整表达出来。如果模型连动作都表达不出来,就更不可能让它真正高质量地执行出来。

第二,提高模型对多元数据的利用效率。机器人和语言模型不一样,机器人数据目前仍然很稀缺。在真实机器人数据非常少的情况下,如果必须依赖海量真机数据才能把模型训练出来,这个数据利用率还是偏低了。所以应该尽可能在预训练阶段,多使用视频数据、互联网数据、仿真数据,先把基础模型训练出来,再提高对真实机器人数据的利用效率。

第三,提高强化学习的规模效应。现在很多情况下,一个机器人的运动策略训练好了,数据就丢掉了。下次做新动作,又要重新训练。理想状态应该是把这些数据收集起来,重新放进一个统一模型里二次利用,不断复用、不断累积,让强化学习也能出现类似"越训练越强"的规模效应。

技术路线选择:世界模型与视频生成

技术路线选择:世界模型与视频生成

技术路线选择:世界模型与视频生成

在技术路线判断上,王兴兴更看好世界模型和视频生成模型。他认为这条路线天花板更高,也更有机会利用互联网海量视频和文本数据。去年到今年,宇树科技开源了一个基于视频生成的世界模型。简单说,就是机器人先在"想象"里生成未来要做的动作,然后再把这个想象过程和真实机械动作对齐,最后再去执行。从展示效果来看,视频生成部分已经做得很好。

但这个方向也有明显难点:视频模态和真机模态很难完全对齐。在视频生成里,误差可能非常小,甚至几乎为零;但真正落到机器人执行时,哪怕只差一毫米,效果都可能完全不一样。所以未来可能还是要把视频生成和强化学习结合起来,才更有机会真正跑通。公司前段时间也开源了自己的VLA模型和训练架构,但就王兴兴的判断来看,现阶段VLA模型的天花板相对还是低一些,尤其是在泛化能力上,目前还没有看到特别理想的结果。

80/80时刻:具身智能的历史性突破

80/80时刻:具身智能的历史性突破

80/80时刻:具身智能的历史性突破

王兴兴给出了对具身智能"ChatGPT时刻"的明确定义:如果未来某一天,在80%左右的陌生场景里,只通过语言或者文字指令,机器人就能完成80%左右的任务,那具身智能就真正迈过了它的"ChatGPT时刻"。这里面最核心的点,是陌生场景。也就是说,必须把机器人直接带到一个它从来没见过、训练集中也没出现过的环境里去,不需要重新训练,不需要重新采数据,不需要提前扫描地图,不需要复杂部署,直接把机器带过去,它就能开始干活。

从概率上讲,AI这件事多少还是带点运气成分。也许哪一天,突然有一家公司,或者某个非常厉害的团队、某个天才,就把这个模型真正做出来了。但王兴兴认为,无论是谁做出来,这对整个行业都会是巨大利好。它会真正点燃行业的热情,让具身智能成为一个全球性的、历史性的时刻。为了解决这些问题,王兴兴认为最重要的还是全球共同合作。机器人、AI、具身智能,都不是一两家公司,甚至也不是一个国家就能独自完成的事。更多时候,它需要全球共同努力。无论最后是谁率先做成,对整个行业都是好事。这个行业本来就是一个新兴行业,王兴兴一直觉得,大家好,才是真的好。

感谢您的阅读

欢迎与我们探讨更多行业落地方式,共同推动技术创新与实践。