12月10日,星尘智能正式发布自研端到端全身视觉—语言—动作(VLA)具身推理模型Lumo-1。这款模型打破传统机器人“轨迹记忆”局限,让机器人在未见过的场景中也能像人类一样思考推理:面对陌生面包能自主推断“加热需用微波炉”,并完成开门、取放、旋钮等全流程操作;在混乱桌面整理文具时,可精细适配不同形状材质物品;甚至能根据环境灵活切换动作策略,当左臂取可乐遇障时,实时选择用右臂完成操作。这标志着机器人正迈入“推理—行动闭环”时代,从“模仿动作”升级为“理解意图后自主行动”。

《机器人参考》了解到,长期以来,AI机器人在物理世界中的行动能力始终面临瓶颈。尽管大模型凭借海量互联网数据具备较强推理能力,但在真实场景中,机器人需处理多步骤长时序任务、模糊指令及未见过的物体与环境,传统VLA模型的短板逐渐凸显。这类模型依赖“看到A+听到B→做C”的固定轨迹映射,在标准场景中表现尚可,却存在三大核心缺陷:
抽象概念理解失效,能识别“可乐”却不懂“补充能量的饮料”这类泛化表述;环境适应性差,在白色桌面训练的模型到木质桌面可能失效;长时序任务容错率低,如微波炉加热等多步骤操作中一步出错便全盘皆输。

为解决这些痛点,星尘智能打造了Lumo-1模型,并创新设计“三阶训练架构”,实现从“背菜谱”到“懂烹饪”的能力跃迁。
第一阶段为具身化VLM训练,通过精选视觉-语言数据集持续预训练,让模型掌握空间理解、动作规划、轨迹推断等“具身语义”,在7个经典具身推理基准测试中,多数成绩超过RoboBrain-7B、Robix-7B等专用模型,且未损伤通用多模态理解能力。
第二阶段是跨本体联合训练,融合不同机器人数据、多视角动作轨迹数据及VLM数据,让模型明确“动作与指令、观测的关联”,强化指令跟随与物体定位能力。
第三阶段为真机推理—动作训练,依托星尘智能绳驱机器人Astribot S1的高度仿人示教轨迹,让模型学习真实世界可执行的动作模式,包括双手协同操作、长序列任务拆解、推理到轨迹的转化等。该阶段采集的任务覆盖日常活动,包含清扫、削皮、折叠等多样化基础动作,且涉及不同物体、光照与场景,为模型实战能力打下坚实基础。
在此基础上,Lumo-1还加入强化学习推理—行动对齐(RL Alignment)机制,解决“推理强但执行差”的问题。通过设计视觉一致性、动作合理性、推理格式规范等多维度奖励信号,采用GRPO学习方案,校准高级推理与低级动作间的误差,让模型在真实轨迹反馈中迭代优化,最终选择更准确、连贯且符合物理规则的动作。实验数据显示,该机制使模型在任务成功率、动作合理性与泛化能力上,显著超越仅依赖专家示范的原始模型。

三大核心技术进一步为Lumo-1的“推理-行动”能力保驾护航。
其一,动作空间建模(SAT)技术将连续动作轨迹压缩为最短路径点,并把旋转、平移等增量动作聚类成“动作单词”,形成可复用、组合的“动作单词库”,既减少数据噪音,又让机器人能像“写句子”一样组合动作,比传统FAST与分桶方法更紧凑稳定。
其二,结构化推理技术让机器人拥有“常识与思考能力”,模型先进行文字推理,包括抽象概念解读(如“低热量”指令对应排除可乐)、子任务拆解(如微波炉加热拆解为7步操作)、视觉观测描述、运动路径推断,再通过视觉推理实现感知与运动估计的结合,形成解释动作的结构化推理链,让“为什么做”先于“怎么做”。
其三,强化学习推理—行动对齐技术,通过多维度奖励信号引导模型优化动作执行,确保推理与实操的一致性。

凭借创新技术架构,Lumo-1在核心任务中展现出卓越性能。在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类机器人任务中,其表现全面超越π0、π0.5等先进模型,尤其在分布外情况(OOD)——即未见过的物体、场景与指令,以及抽象模糊、需扩展推理的指令中,优势更为突出。在7个多模态基准测试中,Lumo-1有6个超过backbone模型Qwen2.5-VL-7B,同时超越RoboBrain-7B等专用具身模型,且融入动作学习后未损伤核心多模态感知推理能力,证明“推理”与“动作”并非零和博弈。
星尘智能团队还通过数据受限扩展定律验证发现,在固定模型规模下,数据多样性(场景、物体、指令覆盖面)对泛化能力的影响远超数据重复次数,为行业提供了“重数据质量而非仅堆数量”的发展新思路。
在Astribot S1真机部署中,Lumo-1的实战能力令人惊艳。面对“把代表爱情的花放进花瓶”指令,机器人能理解玫瑰的文化隐喻;处理“把KFC里的东西放进蓝色容器”任务时,可自主识别炸鸡、汉堡等关联物品;甚至能完成“把画海洋的工具放进绿盘子”这类需要联想的任务,精准找到蓝色画笔。
此次Lumo-1模型的发布,不仅推动机器人从“动作执行者”向“推理决策者”转变,更重塑了具身智能的技术范式。随着“推理—行动闭环”能力的普及,未来机器人有望在家庭服务、餐饮零售、工业制造等领域实现更广泛应用。
文、图/广州日报新花城记者:阮元元
广州日报新花城编辑:吕惠