广州日报「机器人参考」记者获悉,越疆正式发布自研世界动作模型——空弈DobotWAM具身大模型。在具身智能标准评测基准LIBERO上,空弈分别完成Spatial、Object、Goal及LIBERO-10四个标准任务套件,覆盖空间关系理解、物体泛化、目标指令理解与长时序执行等关键能力,平均成功率达99.25%,领先π0.5、π0、GR00T-N1.5、π0+FAST等公开模型及业内已公布的其他模型结果。
其中,空弈在LIBERO-Object上实现100/100全部成功,在Spatial、Goal和LIBERO-10三个套件中均达到99/100。

此次LIBERO表现,标志着在销量上实现“全球协作机器人第一”的越疆机器人,早已跻身具身智能行业头部位置。《机器人参考》了解到,这一硬核跃迁源于公司近三年从协作机器人到具身智能的产品战略升级。基于对机器人“身体”操作能力的深刻理解,空弈形成了独特的具身优势。
许多人关注,具身智能的下一站到底走向哪里?过去,机器人演示多为预设轨迹的舞蹈、翻跟头,好看却不实用。如今,以越疆为代表的头部企业,将焦点拉回插接、抓取、对准等高精度接触作业,推动具身智能走向可用、可靠、可落地。
机器人走向真实的高精度作业,真正的挑战已不再是“识别物体”。在动态、多变的开放场景中,它需要理解空间关系、拆解任务目标、生成符合运动结构的动作,并在多步执行中保持全局一致。这正是越疆空弈试图回答的问题。
近两年,视觉-语言-动作模型成为主流范式,在数据充分、任务清晰的场景下效率较高。然而,过度依赖二维图像模式或离线轨迹模仿,在面对空间扰动、物体变化、长流程任务和真实接触反馈时,仍易出现动作漂移、目标丢失,或局部动作正确但整体任务失败。这要求模型必须超越单纯的“模仿”,建立对动作深层次结构的理解。

空弈DobotWAM的高成功率,源于其在感知、理解、控制与数据闭环上的系统性设计。模型在视觉-语言-动作建模基础上,进一步引入三维空间理解、机器人运动几何约束和真实数据闭环,使机器人不仅学会“模仿动作”,更学会“理解动作为什么这样做”。
核心技术突破包含四个方面:
3D-Aware Spatial Representation:将3D空间信息引入视觉-语言-动作建模,显式感知物体位置、空间关系与操作目标的几何结构,具备更强泛化能力。
Joint Dynamic Geometry Loss:将关节动态信息与末端执行器几何约束融入训练loss,使模型从“模仿动作”升级为“理解真实动作结构”,减少轨迹漂移和抓取失败,提升长时序执行稳定性。
Advanced VLM Task Decomposition:基于高级VLM backbone对复杂指令进行语义理解与任务拆解,将长流程操作分解为清晰的阶段目标和子步骤,避免局部正确但整体失败。
High-Quality Data Flywheel + Real-Robot Recap:构建高质量数据飞轮,以真机实验为核心,闭环采集、训练、评测与反馈,持续吸收真实经验,提升从仿真到真实环境的迁移能力。

四项技术彼此耦合,使空弈能更稳定地完成多物体、多阶段、长时序操作任务,为具身智能大规模落地提供了可复用的系统性框架。

以分类抓取、插充电器和插笔帽三项典型任务为例。这些看似日常的动作实则是高精度接触作业,要求模型不仅识别目标位置,还需理解插头与插座、笔身与笔帽之间的空间关系,并连续完成对准、接近、插入等动作,直接考验小目标定位、强几何约束下的末端控制以及接触过程中的稳定执行与误差修正能力。
测试中,空弈能基于视觉观测完成目标定位,结合机器人自身状态实时生成动作,稳定完成抓取及充电器插接流程。在插笔帽任务中,模型准确判断笔身与笔帽的相对位置及开口方向,完成轴线对齐和精细插入,全程保持姿态稳定。三项任务的连续完成,验证了空弈从空间理解、姿态控制到接触执行的完整闭环能力。
具身智能走向真实世界,不能只依赖更大的模型参数或单次演示的亮眼表现。真正推动机器人规模化落地的核心能力,是一套同时具备空间理解、任务规划、精准执行和持续进化能力的模型系统。越疆空弈DobotWAM正是沿着这一路径迈出的关键一步。未来,越疆将继续围绕真实场景推进具身大模型迭代,让机器人从“能看懂、能行动”走向“能适应、能泛化、能长期可靠执行”。

文、图/广州日报新花城记者:阮元元 实习生:庾鸿勋
视频/广州日报新花城记者:阮元元 实习生:庾鸿勋
广州日报新花城编辑:黎慧莹