北京人形 Pelican‑Unify 1.0 登顶世界第一

5月16日，北京人形机器人创新中心（以下简称“北京人形”）对外发布消息称，其在WorldArena全球权威评测中连下两城——继WoW具身世界模型登顶World Arena Data Engine（数据引擎）赛道后，首个“具身大一统”模型Pelican-Unify 1.0在World Arena综合评测中再度登顶。北京人形由此成为全球唯一在WorldArena两大核心赛道同时夺冠的企业，加冕具身智能领域首个“双冠王”，具身大脑能力跻身世界第一梯队。

据悉，WorldArena由清华大学联合普林斯顿大学、新加坡国立大学、北京大学、中国科学院、上海交通大学、中国科学技术大学等8所顶尖机构共同发起，涵盖6大评测维度、16项细分指标、3大真实应用任务。因其学术严谨性与行业公信力，吸引了全球几乎所有头部世界模型团队参评，在激烈角逐中，PelicanUnify 1.0凭借硬核技术实力脱颖而出，登顶World Arena。

微信图片_2026-05-16_121736_772

过去，具身智能沿着多条路线快速发展：VLM 擅长理解图像和指令，VLA 能够将视觉语言输入映射为动作，世界模型能够预测未来状态。但这些路线往往各自优化、分段连接，容易形成“看、想、动”之间的断裂：理解不能直接被行动验证，行动缺少未来后果约束，世界想象也难以被语言推理稳定引导。

Pelican-Unify 1.0的核心思路是：理解、推理、想象与行动不应是四个孤立模块，而应是同一个物理智能回路的不同侧面，具体实现三类统一：

· 统一理解：将场景、指令、视觉上下文和动作历史映射到共享语义空间；

· 统一推理：将任务意图、动作选择和未来后果转化为可监督的语言化推理过程；

· 统一生成：在同一个扩散解码过程中联合生成未来视频和低层动作，使动作受到想象后果塑造，想象受到任务推理约束。

Pelican-Unify 1.0登顶的意义并不只是拿到某一个榜单的第一，更提出了一条更接近通用具身智能的建模路径：不再把理解、推理、想象与行动视作独立模块分别优化，再通过工程方式拼接；而是从一开始就让它们共享表示、共同训练、相互塑形。这一路线的价值在于，它让模型既能保持专家能力，又能在真实任务中形成更完整的闭环智能。机器人可以理解目标与场景，推理过程让任务意图变得可监督，未来想象让动作具备后果意识，而动作执行又反过来检验理解和想象是否可靠。

Pelican-Unify 1.0的研发主体——北京人形机器人创新中心，以通用机器人平台“具身天工”和通用具身智能平台“慧思开物”为双核心，构建起覆盖“本体—大脑—小脑—平台—生态”的全栈式闭环体系，让顶尖的模型融入真实的生产与服务场景，释放其真正的价值。具身智能下一阶段的关键词，是形成更完整的闭环和大脑各部分能力的协同进化——而北京人形凭借“双冠王”的技术积累，降低具身智能的进入门槛，加速人形机器人从专用设备向通用生产力工具的演进。

文/广州日报新花城记者：张露
广州日报新花城编辑：麦晓颖