机器人参考丨机器人秒变推理大师！Lumo-1 VLA具身推理模型发布！复杂长序列任务全靠推理无需编程

12月10日，星尘智能正式发布自研端到端全身视觉—语言—动作（VLA）具身推理模型Lumo-1。这款模型打破传统机器人“轨迹记忆”局限，让机器人在未见过的场景中也能像人类一样思考推理：面对陌生面包能自主推断“加热需用微波炉”，并完成开门、取放、旋钮等全流程操作；在混乱桌面整理文具时，可精细适配不同形状材质物品；甚至能根据环境灵活切换动作策略，当左臂取可乐遇障时，实时选择用右臂完成操作。这标志着机器人正迈入“推理—行动闭环”时代，从“模仿动作”升级为“理解意图后自主行动”。

《机器人参考》了解到，长期以来，AI机器人在物理世界中的行动能力始终面临瓶颈。尽管大模型凭借海量互联网数据具备较强推理能力，但在真实场景中，机器人需处理多步骤长时序任务、模糊指令及未见过的物体与环境，传统VLA模型的短板逐渐凸显。这类模型依赖“看到A+听到B→做C”的固定轨迹映射，在标准场景中表现尚可，却存在三大核心缺陷：

抽象概念理解失效，能识别“可乐”却不懂“补充能量的饮料”这类泛化表述；环境适应性差，在白色桌面训练的模型到木质桌面可能失效；长时序任务容错率低，如微波炉加热等多步骤操作中一步出错便全盘皆输。

为解决这些痛点，星尘智能打造了Lumo-1模型，并创新设计“三阶训练架构”，实现从“背菜谱”到“懂烹饪”的能力跃迁。

第一阶段为具身化VLM训练，通过精选视觉-语言数据集持续预训练，让模型掌握空间理解、动作规划、轨迹推断等“具身语义”，在7个经典具身推理基准测试中，多数成绩超过RoboBrain-7B、Robix-7B等专用模型，且未损伤通用多模态理解能力。

第二阶段是跨本体联合训练，融合不同机器人数据、多视角动作轨迹数据及VLM数据，让模型明确“动作与指令、观测的关联”，强化指令跟随与物体定位能力。

第三阶段为真机推理—动作训练，依托星尘智能绳驱机器人Astribot S1的高度仿人示教轨迹，让模型学习真实世界可执行的动作模式，包括双手协同操作、长序列任务拆解、推理到轨迹的转化等。该阶段采集的任务覆盖日常活动，包含清扫、削皮、折叠等多样化基础动作，且涉及不同物体、光照与场景，为模型实战能力打下坚实基础。

在此基础上，Lumo-1还加入强化学习推理—行动对齐（RL Alignment）机制，解决“推理强但执行差”的问题。通过设计视觉一致性、动作合理性、推理格式规范等多维度奖励信号，采用GRPO学习方案，校准高级推理与低级动作间的误差，让模型在真实轨迹反馈中迭代优化，最终选择更准确、连贯且符合物理规则的动作。实验数据显示，该机制使模型在任务成功率、动作合理性与泛化能力上，显著超越仅依赖专家示范的原始模型。

三大核心技术进一步为Lumo-1的“推理-行动”能力保驾护航。

其一，动作空间建模（SAT）技术将连续动作轨迹压缩为最短路径点，并把旋转、平移等增量动作聚类成“动作单词”，形成可复用、组合的“动作单词库”，既减少数据噪音，又让机器人能像“写句子”一样组合动作，比传统FAST与分桶方法更紧凑稳定。

其二，结构化推理技术让机器人拥有“常识与思考能力”，模型先进行文字推理，包括抽象概念解读（如“低热量”指令对应排除可乐）、子任务拆解（如微波炉加热拆解为7步操作）、视觉观测描述、运动路径推断，再通过视觉推理实现感知与运动估计的结合，形成解释动作的结构化推理链，让“为什么做”先于“怎么做”。

其三，强化学习推理—行动对齐技术，通过多维度奖励信号引导模型优化动作执行，确保推理与实操的一致性。

凭借创新技术架构，Lumo-1在核心任务中展现出卓越性能。在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类机器人任务中，其表现全面超越π0、π0.5等先进模型，尤其在分布外情况（OOD）——即未见过的物体、场景与指令，以及抽象模糊、需扩展推理的指令中，优势更为突出。在7个多模态基准测试中，Lumo-1有6个超过backbone模型Qwen2.5-VL-7B，同时超越RoboBrain-7B等专用具身模型，且融入动作学习后未损伤核心多模态感知推理能力，证明“推理”与“动作”并非零和博弈。

星尘智能团队还通过数据受限扩展定律验证发现，在固定模型规模下，数据多样性（场景、物体、指令覆盖面）对泛化能力的影响远超数据重复次数，为行业提供了“重数据质量而非仅堆数量”的发展新思路。

在Astribot S1真机部署中，Lumo-1的实战能力令人惊艳。面对“把代表爱情的花放进花瓶”指令，机器人能理解玫瑰的文化隐喻；处理“把KFC里的东西放进蓝色容器”任务时，可自主识别炸鸡、汉堡等关联物品；甚至能完成“把画海洋的工具放进绿盘子”这类需要联想的任务，精准找到蓝色画笔。

此次Lumo-1模型的发布，不仅推动机器人从“动作执行者”向“推理决策者”转变，更重塑了具身智能的技术范式。随着“推理—行动闭环”能力的普及，未来机器人有望在家庭服务、餐饮零售、工业制造等领域实现更广泛应用。

文、图/广州日报新花城记者：阮元元
广州日报新花城编辑：吕惠