诺亦腾机器人与智象未来达成战略合作探索具身智能数据新路径

近日，诺亦腾机器人（Noitom Robotics）宣布与智象未来（HiDream.ai）正式达成战略合作。双方将围绕具身智能训练数据的核心瓶颈问题展开深度合作，通过“真实采集与生成模型协同”的方式，构建可规模化、高泛化能力的具身智能数据生产新路径。双方将共同构建从生成到物理验证的数据闭环，加速推动具身智能走向真实世界应用，共筑具身智能数据新范式未来。

记者从诺亦腾机器人了解到，不同于大语言模型可以低成本获取海量文本数据，具身智能需要融合视觉、动作、触觉等多模态信息，数据结构复杂，获取成本高。模型能力的上限越来越受到数据体系的约束，数据一直是制约行业发展的关键要素。在具身智能数据采集过程中有两组矛盾始终存在。一方面，真实数据的采集成本与模型所需的视觉泛化能力之间存在固有矛盾。标准化的环境能够显著提升采集效率，降低单位数据成本。但想要提升模型的视觉泛化能力，则需要多样化环境、多样化物体分布，覆盖复杂真实世界，以应对环境中的各种不确定性。另一方面，在高精度、多模态数据采集的过程中，各类光学、惯性动作捕捉系统以及触觉采集装置的穿戴将会对人体形态、遮挡关系和整体视觉分布产生干扰，形成明显的“Vision Gap”。如果对采集到的图像进行后期修复，虽然可以对局部区域进行填补，但效果通常差强人意，难以满足具身智能模型训练的数据质量要求。而通过引入AI视频生成以及视觉/世界模型，将有望解决以上这两组矛盾，为具身智能训练数据生产带来新的突破。
基于这一判断，诺亦腾机器人（Noitom Robotics）与智象未来（HiDream）日前宣布联手，将“以人为中心的多模态数据生产基础能力”与“多模态大模型的毫米级可控视频生成能力”相结合，探索真实采集数据的模型增广、扩容与泛化。双方将共同探索用算法与模型缩小 Vision Gap，预测更多的执行路径，以及围绕真正具有空间精度意义的世界模型进行深入研究。双方公司多项深度技术合作之一，利用视频生成技术去除数据中的vision gap及视觉干扰项。此次战略合作将把双方在数据采集和模型训练方面的强项发挥到极致，预计双方年内合作生成的具身智能视频数据将达到数万小时以上，将开辟出一条全新的路径，为行业提供可规模化的高质量具身训练数据。

据了解，诺亦腾机器人面向具身智能与人形机器人产业，以“数据”为核心交付界面，基于高精度人体动作捕捉与多模态数据采集能力，为机器人企业、具身智能模型团队等提供高质量、可规模化的训练数据与相关基础设施能力。而作为一个仅仅成立几年的创业公司，智象未来（HiDream.ai）自创业之后的核心就在基于自研多模态大模型，这是一条比较特殊的但智向未来一直在坚持的路，目前，其优秀的生成式模型在 Vision Gap 的生成式去除方面表现极为优秀，可以达到模型训练的毫米级精度与合理性需求。未来，双方将进一步围绕高质量数据构建、VLA模型规模化演进，以及视频建模与动作预测协同驱动的世界模型等方面展开深入合作。

文/广州日报新花城记者赵琳琳

图源：智象未来与诺亦腾机器人资料图片

广州日报新花城编辑：李光曼