关闭引导
视频丨国内首次实现将人类操作数据直接应用于机器人操作
2025-02-19 17:24:08
广州日报新花城

在具身智能领域,数据获取与应用一直是限制技术发展的关键难题。近日,逐际动力LimX Dynamics带来了突破性的解决方案——发布基于视频生成大模型的具身操作算法(VideoGenMotion),简称LimX VGM。这一算法不仅实现了国内首次将人类操作数据直接应用于机器人操作,还在技术创新和数据利用效率上取得了重大进展,有望加速机器人模仿、学习人类操作的进程,为具身智能发展带来新动力。

推动数据采集简单、高效、低成本

“湾区智算”助力机器人跨越仿人技术门槛

逐际动力表示,具身智能旨在让机器人替代人类完成改变物理世界的任务,而高质量的数据是实现这一目标的基础。以往,获取真机及仿真数据需要耗费巨额成本,限制了具身智能的发展。互联网及视频大模型中虽有海量人类操作视频,获取成本低且包含丰富信息,但行业一直未能找到有效利用这些数据的方法。人类操作视频无法直接用于机器人操作,大模型生成的相关数据也存在精度不足等问题。

而LimX VGM的出现,让机器人跟着人类“有样学样”变得更加简单、高效。该算法通过人类操作视频数据对现有的视频生成大模型进行后训练。在实际应用中,只需要把场景图片和操作任务指令当作提示Prompts,就能完成从任务理解与拆分、物体操作轨迹生成到机器人操作执行的全流程,并且全过程无需真机样本数据,还能实现多平台泛化。


LimX VGM通过深度相机捕捉人手操作,生成的操作视频直接包含三维空间数据。

记者了解到,LimX VGM具备多项核心技术亮点。在人类操作视频到机器人操作策略和行为的桥接方面,它借助现有视频大模型中庞大的人类操作视频数据,提取关键信息并转化为机器人操作策略与行为。这意味着在数据采集上,零真机数据,仅额外采集少量人类操作视频数据即可,极大地降低了数据采集的难度、成本,提高了效率。随着大模型不断升级,LimX VGM能获取更丰富的操作知识,提升算法泛化性。


同一个算法在三个机械臂上都能简单快速部署,并实现了一致的操作效果

引入空间智能也是 LimX VGM的一大创新。通过空间智能 Spatial Intelligence 模块,在对视频生成大模型进行后训练时引入深度信息,使生成的操作视频直接包含三维空间数据。这一技术突破至关重要,因为它让机器人能够将视频数据转化为在三维物理世界的实际操作。而深度信息的采集过程却很简单,使用深度相机捕捉人手真实操作过程即可。

在泛化与机器人本体解耦方面,LimX VGM优势明显。算法真机部署只需简单适配,就能在不同硬件平台上直接执行操作,不受机器人硬件形态的限制,从根本上解决了算法与机器人本体耦合的问题。记者在实际演示视频中看到,使用 KUKA、UR和求之三种差异巨大的机械臂进行叠积木操作,LimX VGM都能快速部署并实现一致的操作效果,充分证明了其跨平台的通用性。

LimX VGM的工作流程清晰高效,总结起来主要分为三个关键步骤:训练阶段,采集真实人类操作视频,对现有视频生成大模型进行后训练;推理阶段,以初始场景和任务操作指令作为提示词 Prompts,利用训练后的模型生成带深度信息的人类操作视频,进而生成机器人操作行为;执行阶段,算法输出符合机器人操作逻辑的行为解算,由机器人执行抓取姿态及操作轨迹。

数据一直是具身智能广泛应用的最大壁垒。逐际动力在LimX VGM的开发过程中以数据驱动为核心,提出了“数据-性能ROI”这一创新性评估方法,聚焦数据成本到操作性能的转化率,不单纯追求数据规模或质量。视频生成大模型本身压缩了巨量人类操作数据和物理知识,LimX VGM将这些视频数据应用于机器人操作,以低成本获得海量操作数据和一流操作决策能力。

记者了解到,逐际动力创立于2022年,由南方科技大学产学研孵化成立,聚焦打造全尺寸通用人形机器人,目前已推出了双足机器人、四轮足机器人等创新产品。LimX VGM算法的发布,是逐际动力在具身智能领域的重要关键突破。

逐际动力表示,未来将继续优化LimX VGM的能力,推动算法适配更多先进的视频大模型,优化推理效率,逐步实现实时视频生成,提升空间智能模块性能和操作执行精准性,也期待与视频生成模型公司、系统集成商及创新者深入合作,共同推动技术方案应用落地。

文/广州日报新花城记者:阮元元、王纳
图/受访单位供图
广州日报新花城编辑:黎慧莹

浏览量:
@新花城 版权所有 转载需经授权