王兴兴的豪赌：G1经典定位与具身智能的80/80时刻

宇树科技创始人兼CEO王兴兴在GTC 2026大会上放出了豪言壮语：G1人形机器人"全世界都在学"，并且"即使再过十年、二十年回头看，这款机器人也会是很经典的一代产品"。这种自信背后，是宇树科技在过去一年交出的亮眼成绩单，以及对具身智能未来发展的深度洞察。王兴兴认为，具身智能距离真正的"ChatGPT时刻"仍有一段距离，但这一临界点最快1-2年，最长2-3年就会到来。当机器人能够在80%的陌生场景中，仅通过语言指令完成80%的任务时，具身智能将迎来历史性突破。

G1产品矩阵：从经典到全面的战略布局

宇树科技的产品矩阵正在从单点突破走向全面布局。2024年5月发布的G1人形机器人，身高约1.3米，重量几十千克，具备高自由度的腿部和手部，传感器配置完整，整机紧凑度极高。这款机器人以其小巧、紧凑、性价比高的特点，在全球范围内获得了广泛关注，不少国内外用户都在使用它，甚至其他公司也在研究、借鉴这款机器人的设计方案。王兴兴对G1的定位非常清晰：这是一款经典产品，即使再过十年、二十年，依然会是一款经典机型。

但宇树科技并没有止步于G1的成功。去年，公司发布了中型工业级机器狗A2，各项性能指标突出，可进行室内外巡检等工作；同时发布了身高1.8米的大尺寸人形机器人H1，整机比例更像人，灵活度更好，更适合工厂、农业等体力型工作场景。前段时间，公司又发布了小型机器狗As2，具备基本防水能力，负载能力达十几千克，续航时间较长，希望未来能真正帮助用户完成徒步、旅行中的负重任务。从消费级到工业级，从四足到人形，宇树科技正在构建一个完整的产品生态。

运动能力升级：从炫技到实用的跨越

在运动性能方面，宇树科技去年取得了显著突破。人形机器人H1在长跑1500米项目中，用时约6分钟，已经超过一般普通人。除了硬件性能提升，软件算法也进行了大量升级，包括自动化控制、任意动作下的抗冲击能力、摔倒后自主起身等。这些技术的实用价值极高，因为机器人想要大规模应用，稳定性必须足够好，即使在极端情况下也要能自我恢复。

机器人的算法对硬件的适配能力较强，在不同机型上的泛化表现相对更好。理论上，现在人类可以做的很多动作，机器人都已经可以尝试去完成。当然，一些特别复杂的动作，比如涉及很大侧向力或地面比较滑的动作，仍会遇到挑战。但在全身深度强化学习方面，很多核心问题已经基本解决，接下来更多是继续完善。去年下半年，公司还做了比较完整的全身遥操作，这对大规模数据采集非常有价值。

春晚背后的技术突破：从单个动作到系统能力

今年2月，宇树科技参与的春晚节目在国内外都获得了热烈反馈。为了这个节目，王兴兴几乎把能找到的中国传统功夫动作都梳理了一遍，最初筛选了上百个动作，最后保留了几十个有代表性的动作，包括醉拳、双截棍、舞棍、舞剑等经典内容。同时，公司也挑战了一些高难度动作，比如原地连续空翻，对电机和腿部负载压力非常大；上墙动作也挑战了更高难度，不只是单步，而是做更高、更有视觉冲击力的动作。

在节目中，机器人进行了专门改装。头部激光雷达换成了128线3D激光雷达，并调整了朝向，让机器人能够看到周围更多信息。更重要的是，公司使用的是预训练的全身RL模型，而不是单独训练一个RL模型。这种做法的复合能力更强，训练和调试更方便，也更利于快速走位、复杂动作组合，以及不同硬件之间的兼容。简单来说，现在做复杂动作时，理论上可以让机器人瞬间停下来，停稳之后再瞬间切到下一个动作。如果用更早期的技术路线，很多单动作策略是没法这样中途暂停和切换的。此外，公司还开发了全身状态感知模型，让机器人在动作过程中更好地完成感知和决策，同时也做了集群控制系统，可以调动几十台甚至上百台机器人完成复杂走位和编队。

运动与干活同步：具身智能的必经之路

王兴兴强调，运动能力和干活能力都非常重要，而且必须同步推进。某种意义上，运动能力还是干活能力的前提。机器人要干活，首先要满足两个条件：第一，它的动作表达必须足够丰富，能够做出各种各样的动作；第二，它在做这些动作的时候必须足够稳定。如果连这两点都做不到，就很难谈真正的干活能力。

这有点像动物。比如蚂蚁、老鼠、狗，它们的大脑未必非常发达，但运动能力照样很强。所以运动智能某种程度上是一个相对更容易实现、也是必然要先做好的能力。先把身体能力做出来，再把"大脑"和"干活模型"做得更好，这是必要路径。过去几年，宇树科技一直在推动机器人干活这件事，但客观来说，这件事在全球范围内依然都很难。公司一直希望机器人真正去生产机器人，所以前段时间也在开发相关模型，并尝试把它们用到人形机器人上，让人形机器人进入工厂，去生产人形机器人。现阶段，如果是特别复杂的工位，比如装配关节模组，因为零部件多、工序复杂，成功率还不是特别高。但如果是抓取单个零部件，或者一两个零部件组成的相对简单动作，在训练完成后，基本可以做到接近百分之百的成功率。

三大瓶颈：迈过"ChatGPT时刻"的关键挑战

王兴兴认为，要迈过具身智能的"ChatGPT时刻"，行业至少还要解决三件事：

第一，提高模型对任务和动作的表达能力，突破泛化瓶颈。现在很多模型，连"表达"本身都还不够强。它可能只能做一些基础动作，但如果要让它做任意动作、实时生成动作，或者更高级、更复杂的动作，模型本身还很难完整表达出来。如果模型连动作都表达不出来，就更不可能让它真正高质量地执行出来。

第二，提高模型对多元数据的利用效率。机器人和语言模型不一样，机器人数据目前仍然很稀缺。在真实机器人数据非常少的情况下，如果必须依赖海量真机数据才能把模型训练出来，这个数据利用率还是偏低了。所以应该尽可能在预训练阶段，多使用视频数据、互联网数据、仿真数据，先把基础模型训练出来，再提高对真实机器人数据的利用效率。

第三，提高强化学习的规模效应。现在很多情况下，一个机器人的运动策略训练好了，数据就丢掉了。下次做新动作，又要重新训练。理想状态应该是把这些数据收集起来，重新放进一个统一模型里二次利用，不断复用、不断累积，让强化学习也能出现类似"越训练越强"的规模效应。

技术路线选择：世界模型与视频生成

在技术路线判断上，王兴兴更看好世界模型和视频生成模型。他认为这条路线天花板更高，也更有机会利用互联网海量视频和文本数据。去年到今年，宇树科技开源了一个基于视频生成的世界模型。简单说，就是机器人先在"想象"里生成未来要做的动作，然后再把这个想象过程和真实机械动作对齐，最后再去执行。从展示效果来看，视频生成部分已经做得很好。

但这个方向也有明显难点：视频模态和真机模态很难完全对齐。在视频生成里，误差可能非常小，甚至几乎为零；但真正落到机器人执行时，哪怕只差一毫米，效果都可能完全不一样。所以未来可能还是要把视频生成和强化学习结合起来，才更有机会真正跑通。公司前段时间也开源了自己的VLA模型和训练架构，但就王兴兴的判断来看，现阶段VLA模型的天花板相对还是低一些，尤其是在泛化能力上，目前还没有看到特别理想的结果。

80/80时刻：具身智能的历史性突破

王兴兴给出了对具身智能"ChatGPT时刻"的明确定义：如果未来某一天，在80%左右的陌生场景里，只通过语言或者文字指令，机器人就能完成80%左右的任务，那具身智能就真正迈过了它的"ChatGPT时刻"。这里面最核心的点，是陌生场景。也就是说，必须把机器人直接带到一个它从来没见过、训练集中也没出现过的环境里去，不需要重新训练，不需要重新采数据，不需要提前扫描地图，不需要复杂部署，直接把机器带过去，它就能开始干活。

从概率上讲，AI这件事多少还是带点运气成分。也许哪一天，突然有一家公司，或者某个非常厉害的团队、某个天才，就把这个模型真正做出来了。但王兴兴认为，无论是谁做出来，这对整个行业都会是巨大利好。它会真正点燃行业的热情，让具身智能成为一个全球性的、历史性的时刻。为了解决这些问题，王兴兴认为最重要的还是全球共同合作。机器人、AI、具身智能，都不是一两家公司，甚至也不是一个国家就能独自完成的事。更多时候，它需要全球共同努力。无论最后是谁率先做成，对整个行业都是好事。这个行业本来就是一个新兴行业，王兴兴一直觉得，大家好，才是真的好。