2025年,北京亦庄首届人形机器人半程马拉松,机器人踉跄前行的画面一度成为网络热梗。
一年后,2026年4月19日,第二届赛事鸣枪。超百支队伍、300余台机器人、26个主流品牌参赛,规模较去年增长近5倍。更关键的是,完赛率和自主性大幅提升,全要素流程闭环已然成型。

网络截图
从“能不能走”到“工程上可不可靠”,这中间发生了什么?作为连续两届赛事的感知方案提供商,奥比中光泛机器人产品中心产品总监李威博士,接受了《机器人参考》观察元的专访。以下为对话整理——
机器人观察元 今年的人形机器人马拉松和去年相比,有什么本质变化?
李威:2025年更多是在证明“人形机器人可以参与长距离运动”,而2026年开始在回答“这种能力是否具备工程上的可靠性”。
过去大家更多关注机器人“能不能走”,但这类长距离、开放环境的挑战,核心考验的是:感知系统的稳定性、环境理解能力、系统长时间运行的鲁棒性。
更重要的是,这类赛事正在形成一个变化:过去各家的能力更多是在各自设定的场景中展示,今年参赛机器人数量增长近15倍,参赛队伍数量增长近5倍,大家在相对统一的规则、更接近真实世界的环境下进行集中检验,使赛事成为一个具有高可比性的“行业测试场”,也推动了行业加速集中检验与技术竞争。
机器人观察元 为什么“马拉松”会成为一个重要的测试形式?
李威:马拉松的价值远超“跑步”本身,它被视为一个高强度、长周期的系统压力测试。
第一,极度接近真实世界的“压力场”。马拉松同时具备长时间连续运行、不可完全控制的开放环境,以及感知/决策/运动多系统协同这三个核心特征,这与机器人未来进入真实应用场景的挑战高度吻合。
第二,实验室缺陷的“放大镜”。在受控的实验室中,许多微小的软硬件隐患可能不会暴露;但在马拉松这种严苛环境下,任何细微的系统抖动或算法偏差都会被时间放大,从而暴露出底层设计的不足。
第三,非结构化地形的严苛考验。赛道不是平坦的测试场地,而是由平地、坡道、弯道、狭窄路段等10余种地形构成的“简化版真实世界”,其中还包含了几条接近90度的弯道。这要求机器人必须在路况、光照、地形不断变化的过程中始终保持稳定在线。
机器人观察元 你如何看待当前“人形机器人是否实用”的争议?
李威:这种争议是技术从实验室走向现实世界的必经阶段。
回望2025年首届比赛,现场曾因机器人大面积“踉跄”和摔倒被称为“社死现场”。然而仅用一年时间,2026年的测试已实现全要素流程闭环,完赛率与自主性大幅提升。我们在这一年当中也看到了机器人在不同场合表现出的进步。这种从“蹒跚学步”到“稳健奔跑”的质变,证明了中国人形机器人产业的发展速度与全球领先的实力。
另一方面,人形机器人的落地是一个长跑,应当允许它在非结构化环境中偶尔犯错并给予修正的机会。争议往往源于对现状的审视,而价值产生于对未来的工程化推进。
我们认为,人形机器人会沿着“分层推进”的逻辑落地:
第一层是已经实现实际应用的单点能力落地,在限定环境做指定任务,变量可控,比如简单搬运、固定路线巡检。
第二层是正在发生的场景级落地,关键变化是:环境不再完全可控、任务有一定变化、需要一定泛化能力,这一层的核心门槛是机器人是否具备“对环境变化的适应能力”。
第三层是未来的通用落地,能够在高度不确定的环境下实现多场景多任务,解决通用具身智能问题。
机器人观察元 从技术角度看,人形机器人目前最大的瓶颈在哪里?
李威:从感知的角度看,人形机器人面临从“短时演示”向“长时稳定运行”以及“多场景适应”跨越的瓶颈。
一是长时运行下的“稳定性赤字”。短时间演示往往能掩盖系统性缺陷,但一旦进入长时间运行,感知数据是否持续可靠、系统是否累积误差等问题就会彻底暴露。视觉感知需要在几十分钟甚至更长时间内,持续稳定地输出高质量的深度信息,这对感知硬件的寿命和算法的鲁棒性提出了严苛要求。
二是复杂多场景的“泛化困局”。机器人在走出实验室后,必须面对强光、逆光、户外复杂材质以及动态遮挡等不可控变量,这些环境因素会对感知系统产生剧烈干扰。“多场景适应”要求机器人具备极高的环境理解能力,能够根据不同地形实时调整动态平衡与转向控制精度。
三是感知与运动的“耦合”。在长距离运动中,机器人自身的振动、视角切换和动态模糊会反作用于感知精度,如何实现运动状态下的感知稳定性是目前亟待解决的工程难题。
机器人观察元 在你看来,3D视觉在这个阶段的角色是什么?
李威:机器人系统通常拆解为“感知、决策、执行”三层架构,而3D视觉正处于这一链条的最前端。
首先,感知决定了决策的上限。如果3D视觉提供的环境输入不稳定或存在误差,后端的AI决策大脑就会产生误判。例如在马拉松赛道中,如果视觉无法准确识别下坡斜度或起伏路面,机器人即便有再强大的运动平衡算法,也会因为“信息失真”而导致执行失效。
其次,它是长效运行的“基石”。在长达几十分钟甚至数小时的挑战中,3D视觉的角色已不再只是“瞬时成像”,而是持续、稳定地为机器人提供环境感知信息。它需要在光照剧烈变化、动态遮挡以及复杂地形条件下,尽可能抑制误差累积,为系统提供连续可靠的感知支撑。
第三,它是系统可靠性的“胜负手”。在当前从“验证可行性”转向“验证可用性”的关键期,感知系统的稳定性直接决定了整个机器人系统能否持续、重复地完成任务。没有稳定且高鲁棒性的感知,人形机器人的“泛化能力”就无从谈起。
机器人观察元 未来3D视觉在机器人领域的关键方向是什么?
李威:我们认为会有几个趋势:
第一,“精度与稳定性兼顾”。过去行业倾向于追求极高的测量精度,但在移动机器人领域,“能不能一直稳定工作”与“某一刻测得准”同样重要。未来的3D视觉模组需要具备极高的抗震动、抗干扰能力。
第二,从单一传感到多模态深度融合。未来的感知不再是简单的“拍张深度图”,而是将RGB图像、深度数据以及AI语义理解深度有机结合。这意味着视觉系统不仅要看到“前方有障碍”,还要理解那是“什么性质”的障碍,辅助决策层进行更智能的规划。
第三,从室内受控环境走向全场景复杂环境。机器人要真正走入人类生活,必须征服户外、工业、非结构化场景。这就要求3D视觉必须解决强光、逆光、户外复杂材质反射以及动态遮挡等挑战,在多变的环境中保持稳定可靠的感知能力。
第四,功耗、体积与算力的极致平衡。作为具身智能的传感器前端,3D视觉模组的功耗与体积优化是量产落地的先决条件。为了不大幅消耗机器人的电池寿命,必须在保持高性能输出的同时,实现更轻量化的物理形态。
奥比中光自2015年以来深耕机器人赛道,在行业应用与市场拓展方面积累了领先优势。近两年推出的Gemini 330系列双目3D相机,搭载自研深度引擎芯片MX6800,不仅能够在从漆黑到阳光的各种光照状况下输出精准、可靠的三维数据,还能让高性能深度图像计算及高精度传感器同步在相机中完成,实现极低的数据传输时延。该系列相机已经应用在天工、智元、优必选、荣耀、星尘智能等人形机器人上。
未来,我们将持续加大机器人AI视觉与空间感知技术研发攻关,进一步深化机器人“手—眼—脑”以及多传感器感知技术的创新融合,积极参与具身智能等机器人产业演进。

联系《机器人参考》:juliaryy@163.com
文、图/广州日报新花城记者:阮元元
广州日报新花城编辑:石忠情