机器人参考｜“观察元”专访：揭秘人形机器人马拉松

2025年，北京亦庄首届人形机器人半程马拉松，机器人踉跄前行的画面一度成为网络热梗。

一年后，2026年4月19日，第二届赛事鸣枪。超百支队伍、300余台机器人、26个主流品牌参赛，规模较去年增长近5倍。更关键的是，完赛率和自主性大幅提升，全要素流程闭环已然成型。

af2c778d212ca657261ea081bc4ffe55
网络截图

从“能不能走”到“工程上可不可靠”，这中间发生了什么？作为连续两届赛事的感知方案提供商，奥比中光泛机器人产品中心产品总监李威博士，接受了《机器人参考》观察元的专访。以下为对话整理——

机器人观察元 今年的人形机器人马拉松和去年相比，有什么本质变化？

李威：2025年更多是在证明“人形机器人可以参与长距离运动”，而2026年开始在回答“这种能力是否具备工程上的可靠性”。

过去大家更多关注机器人“能不能走”，但这类长距离、开放环境的挑战，核心考验的是：感知系统的稳定性、环境理解能力、系统长时间运行的鲁棒性。

更重要的是，这类赛事正在形成一个变化：过去各家的能力更多是在各自设定的场景中展示，今年参赛机器人数量增长近15倍，参赛队伍数量增长近5倍，大家在相对统一的规则、更接近真实世界的环境下进行集中检验，使赛事成为一个具有高可比性的“行业测试场”，也推动了行业加速集中检验与技术竞争。

机器人观察元 为什么“马拉松”会成为一个重要的测试形式？

李威：马拉松的价值远超“跑步”本身，它被视为一个高强度、长周期的系统压力测试。

第一，极度接近真实世界的“压力场”。马拉松同时具备长时间连续运行、不可完全控制的开放环境，以及感知/决策/运动多系统协同这三个核心特征，这与机器人未来进入真实应用场景的挑战高度吻合。

第二，实验室缺陷的“放大镜”。在受控的实验室中，许多微小的软硬件隐患可能不会暴露；但在马拉松这种严苛环境下，任何细微的系统抖动或算法偏差都会被时间放大，从而暴露出底层设计的不足。

第三，非结构化地形的严苛考验。赛道不是平坦的测试场地，而是由平地、坡道、弯道、狭窄路段等10余种地形构成的“简化版真实世界”，其中还包含了几条接近90度的弯道。这要求机器人必须在路况、光照、地形不断变化的过程中始终保持稳定在线。

机器人观察元 你如何看待当前“人形机器人是否实用”的争议？

李威：这种争议是技术从实验室走向现实世界的必经阶段。

回望2025年首届比赛，现场曾因机器人大面积“踉跄”和摔倒被称为“社死现场”。然而仅用一年时间，2026年的测试已实现全要素流程闭环，完赛率与自主性大幅提升。我们在这一年当中也看到了机器人在不同场合表现出的进步。这种从“蹒跚学步”到“稳健奔跑”的质变，证明了中国人形机器人产业的发展速度与全球领先的实力。

另一方面，人形机器人的落地是一个长跑，应当允许它在非结构化环境中偶尔犯错并给予修正的机会。争议往往源于对现状的审视，而价值产生于对未来的工程化推进。

我们认为，人形机器人会沿着“分层推进”的逻辑落地：

第一层是已经实现实际应用的单点能力落地，在限定环境做指定任务，变量可控，比如简单搬运、固定路线巡检。

第二层是正在发生的场景级落地，关键变化是：环境不再完全可控、任务有一定变化、需要一定泛化能力，这一层的核心门槛是机器人是否具备“对环境变化的适应能力”。

第三层是未来的通用落地，能够在高度不确定的环境下实现多场景多任务，解决通用具身智能问题。

机器人观察元 从技术角度看，人形机器人目前最大的瓶颈在哪里？

李威：从感知的角度看，人形机器人面临从“短时演示”向“长时稳定运行”以及“多场景适应”跨越的瓶颈。

一是长时运行下的“稳定性赤字”。短时间演示往往能掩盖系统性缺陷，但一旦进入长时间运行，感知数据是否持续可靠、系统是否累积误差等问题就会彻底暴露。视觉感知需要在几十分钟甚至更长时间内，持续稳定地输出高质量的深度信息，这对感知硬件的寿命和算法的鲁棒性提出了严苛要求。

二是复杂多场景的“泛化困局”。机器人在走出实验室后，必须面对强光、逆光、户外复杂材质以及动态遮挡等不可控变量，这些环境因素会对感知系统产生剧烈干扰。“多场景适应”要求机器人具备极高的环境理解能力，能够根据不同地形实时调整动态平衡与转向控制精度。

三是感知与运动的“耦合”。在长距离运动中，机器人自身的振动、视角切换和动态模糊会反作用于感知精度，如何实现运动状态下的感知稳定性是目前亟待解决的工程难题。

机器人观察元 在你看来，3D视觉在这个阶段的角色是什么？

李威：机器人系统通常拆解为“感知、决策、执行”三层架构，而3D视觉正处于这一链条的最前端。

首先，感知决定了决策的上限。如果3D视觉提供的环境输入不稳定或存在误差，后端的AI决策大脑就会产生误判。例如在马拉松赛道中，如果视觉无法准确识别下坡斜度或起伏路面，机器人即便有再强大的运动平衡算法，也会因为“信息失真”而导致执行失效。

其次，它是长效运行的“基石”。在长达几十分钟甚至数小时的挑战中，3D视觉的角色已不再只是“瞬时成像”，而是持续、稳定地为机器人提供环境感知信息。它需要在光照剧烈变化、动态遮挡以及复杂地形条件下，尽可能抑制误差累积，为系统提供连续可靠的感知支撑。

第三，它是系统可靠性的“胜负手”。在当前从“验证可行性”转向“验证可用性”的关键期，感知系统的稳定性直接决定了整个机器人系统能否持续、重复地完成任务。没有稳定且高鲁棒性的感知，人形机器人的“泛化能力”就无从谈起。

机器人观察元 未来3D视觉在机器人领域的关键方向是什么？

李威：我们认为会有几个趋势：

第一，“精度与稳定性兼顾”。过去行业倾向于追求极高的测量精度，但在移动机器人领域，“能不能一直稳定工作”与“某一刻测得准”同样重要。未来的3D视觉模组需要具备极高的抗震动、抗干扰能力。

第二，从单一传感到多模态深度融合。未来的感知不再是简单的“拍张深度图”，而是将RGB图像、深度数据以及AI语义理解深度有机结合。这意味着视觉系统不仅要看到“前方有障碍”，还要理解那是“什么性质”的障碍，辅助决策层进行更智能的规划。

第三，从室内受控环境走向全场景复杂环境。机器人要真正走入人类生活，必须征服户外、工业、非结构化场景。这就要求3D视觉必须解决强光、逆光、户外复杂材质反射以及动态遮挡等挑战，在多变的环境中保持稳定可靠的感知能力。

第四，功耗、体积与算力的极致平衡。作为具身智能的传感器前端，3D视觉模组的功耗与体积优化是量产落地的先决条件。为了不大幅消耗机器人的电池寿命，必须在保持高性能输出的同时，实现更轻量化的物理形态。

奥比中光自2015年以来深耕机器人赛道，在行业应用与市场拓展方面积累了领先优势。近两年推出的Gemini 330系列双目3D相机，搭载自研深度引擎芯片MX6800，不仅能够在从漆黑到阳光的各种光照状况下输出精准、可靠的三维数据，还能让高性能深度图像计算及高精度传感器同步在相机中完成，实现极低的数据传输时延。该系列相机已经应用在天工、智元、优必选、荣耀、星尘智能等人形机器人上。

未来，我们将持续加大机器人AI视觉与空间感知技术研发攻关，进一步深化机器人“手—眼—脑”以及多传感器感知技术的创新融合，积极参与具身智能等机器人产业演进。

c1564f24cd5105f7b213528236b0224a

联系《机器人参考》：juliaryy@163.com

文、图/广州日报新花城记者：阮元元
广州日报新花城编辑：石忠情