具身智能落地,开始补“感知”这一课

12 小时前9.5k
一套足够稳定、精准的感知系统,是机器人能否在开放环境中可靠工作的前提。

截屏2026-04-23 18.02.40.png具身智能行业的一个共识是,今年将会成为人形机器人的量产落地元年。

规模铺开的同时,机器人面对的环境也在发生变化:实验室里的结构化场景,正逐渐让位于更加开放的现实世界。

机器人一旦进入真实环境,感知层的重要性就会迅速凸显,而这一层能力在过去长期被低估。

机器人的执行闭环是「感知—决策—动作」。感知一旦掉链子,后续的操作和决策将无法有效执行。

最近的人形机器人半程马拉松就是一个开放场景——长时间户外奔跑、光照变化、路面起伏,让不少机器人的感知系统暴露出不稳定的问题。

一套足够稳定、精准的感知系统,是机器人能否在开放环境中可靠工作的前提。

也正因此,感知层那些原本低存在感的核心零部件,正在被重新估值,感知层,成为机器人落地的关键卡口之一。

顺着这条逻辑往下看,机器人感知能力大致可以分为三层:环境感知、本体状态感知,以及交互与操作感知。

1、看见世界——环境感知传感器

环境感知是机器人进入真实场景的第一道门槛。它决定机器人能不能识别物体、理解空间、判断距离,从而完成导航、避障和抓取定位。

在这一层,核心硬件主要包括两类:

  • 一是视觉传感器,包括 RGB 相机、双目相机、深度相机、鱼眼相机,主要提供图像、纹理和部分深度信息;
  • 二是空间感知类传感器,主要为激光雷达,提供稳定的距离和空间结构信息。

截屏2026-04-23 18.02.53.png奥比中光Gemini 330系列双目3D相机

不过,在真实环境中,采集到图像信息,并不意味着机器人已经能看懂周围环境。

例如,在复杂光照、动态人流和室内外交替的环境中,RGB 相机获取的画面很容易失真。逆光条件下,目标区域可能变得昏暗难辨;强反光会削弱物体边缘和轮廓信息;到了夜间,图像质量还会进一步下降。

环境中的人和物持续移动,也会增加识别和定位难度,视觉系统容易出现目标丢失、距离判断偏差等问题。

除了复杂光照下稳定性不够,动态场景理解难的问题,环境感知层面还有两个难点。

一个是手眼协同要求高。视觉与激光雷达的观测会随肢体运动产生动态畸变、视角跳变、运动模糊,导致目标位置与深度测量出现瞬时误差。

手、眼、物体三者的相对位姿需要亚厘米级甚至更高精度的实时匹配,稍有偏差就会导致抓取偏移、碰撞或跟踪丢失。

另一个是算力与延迟压力大。

视觉和激光雷达本身都是高数据量传感器。摄像头持续输出图像流,激光雷达持续输出点云。而机器人通常需要装多个传感器,多目相机、深度相机、鱼眼相机、激光雷达一起工作。

这样一来,前端采集到的数据量会非常大,但多源信息融合、3D 建图、目标检测与跟踪、动态障碍物分割等算法本身复杂度高,因此对端侧算力提出很高要求。

其次,环境信息处理一旦不够及时,哪怕只是数百毫秒的延后,经过层层传递,系统拿到的也可能已经落后于现场变化。

这会导致路径判断出现偏差,避障反应变慢,抓取位置不准,还会进一步影响整机动作的稳定性。

因此,机器人进入真实场景后,环境感知器件需要进行一轮明显的升级,从基础的视觉采集,升级为精准识别、稳定跟踪与空间理解能力。

围绕这些问题,行业当前的重点方向主要集中在深度感知和空间理解两个方面。

所谓深度感知,就是让机器人在识别目标之外,进一步获得距离、轮廓和空间层次信息。

空间理解则是在此基础上,对场景结构、障碍物分布、目标物体与周围环境的关系形成更完整的判断。

沿着这个方向,行业出现了两种解法

  • 从二维看图像升级到三维空间理解;
  • 多传感器融合演进:从单一视觉升级到视觉+激光雷达等融合方案。

在这一过程中,一批代表性企业已经沿着不同路线展开布局。

奥比中光的重点落在深度视觉能力上。其 Gemini 330 系列双目 3D 相机搭载面向机器人场景自研的深度引擎芯片 MX6800,结合主动与被动成像技术,能够在黑暗、强光等差异较大的光照条件下输出较为稳定的三维数据。

禾赛的思路更偏向空间数据采集与场景还原。其推出的空间智能 AI 硬件产品 Kosmo,将定制化激光雷达、多个摄像头、空间感知算法和 AIGC 能力集成到一个小型设备中,能够把物理三维世界还原为对应的数字化三维场景。

截屏2026-04-23 18.03.02.png速腾聚创则在多传感器融合和系统简化方向上推进。其推出的 Active Camera,被定位为「机器人之眼」,将深度、色彩和姿态三类核心感知信息在芯片层面进行集成,实现毫秒级时空同步。

截屏2026-04-23 18.03.08.png相比传统多传感器叠加方案,这种做法减少了系统复杂度,也有助于提升感知结果的一致性和响应效率。

各家厂商的侧重点虽有不同,但目标一致:

让机器人在复杂多变的真实场景中,获得足够稳定、精准的空间理解能力。

2、感知自己——本体状态感知传感器

光有对环境的基础感知还不够。机器人要想在动态中保持平衡、精确出力,还需要另一套「体内感官」——感知自己。

人形机器人是一个高动态系统,走路、转身、上下坡、受扰动、落脚时,都需要实时知道自己的姿态、速度和受力变化,才能维持平衡、控制发力,并完成更稳定的动作执行。

支撑这一层能力的核心器件,主要可以分为两类

  • 一类是惯性传感器,代表产品是 IMU,它相当于具身智能机器人的「小脑」与前庭系统,核心用于测量自身角速度、线性加速度,支撑姿态估计与动态平衡。
  • 另一类是力矩与力传感器,包括关节扭矩传感器、六维力传感器和足底力传感器,负责感知关节、腕部、足底等位置的受力变化。

本体状态感知层的难点主要集中在三点。

第一,对响应速度和稳定性要求很高。

如果本体状态感知出现延迟,后续控制就容易滞后,打乱动作节奏。同时,在执行高动态动作的过程中,震动、冲击、快速转向和落地反馈又会放大误差,影响就会传递到整条控制链路中。

第二,量产阶段对一致性提出了更高要求。

样机能够跑通,并不意味着批量产品在长时间运行中也能保持同样稳定的表现。机器人进入量产后,传感器的一致性和可靠性会变得更加关键。

第三,小型化、集成和成本压力并存。

六维力和力矩传感器通常要安装在腕部、夹爪末端甚至灵巧手等空间有限的位置,既要做得足够小,又要兼顾测量精度、结构强度和系统兼容性。

而且这类器件的成本一直偏高。以特斯拉机器人为例,双脚所用的两个六维力传感器成本就达到 6700 美元。

截屏2026-04-23 18.03.24.png因此,传感器的小型化、高动态适应性和量产一致性,是当前行业攻坚的重点。

在这个领域内,出现了两种代表性玩家。

一类是从智驾领域切入、在汽车体系里积淀深厚的玩家,以导远科技为代表。

截屏2026-04-23 18.03.33.png导远科技推出了车规级 IMU 模组 IMU5146,并已向银河通用交付。

该 IMU 模组姿态测量精度达到 0.05°,输出频率 1000Hz 且延迟极低,能够实时捕捉机器人的微小倾斜与晃动,有效避免响应滞后导致的失衡。

截屏2026-04-23 18.03.51.png更重要的是,导远把车规级的可靠性、一致性和量产能力带入了机器人自身感知层。

其产品支持-40℃至 105℃宽温运行,可承受 2000g 极限冲击,适配人形机器人在跳跃、翻滚等高强度动态下的感知需求。

此外,导远拥有从底层芯片、算法软件到模组系统及精密制造的全栈能力,能够从芯片级开始定义产品逻辑,具备较高的灵活性。

基于这种可扩展、高可靠且经济高效的时空智能解决方案,导远已经成功从汽车向机器人、工程机械、可再生能源系统等领域快速扩张。

另一类是以坤维科技和鑫精诚为代表的专业力传感器厂商。

坤维科技推出了专为人形机器人手腕和脚踝设计的 HRS 人形系列,最薄尺寸仅 10 毫米,重复精度优于 0.1%FS,已批量供货优必选、智元、银河通用等头部企业。

截屏2026-04-23 18.03.59.png鑫精诚则聚焦 MEMS 六维力传感器,已完成试样验证并形成小批量订单,正在建立覆盖指尖、手腕、脚踝三大关键部位的自动化产线,布局更多指向后续的规模化供给能力。

4、接触世界——交互与操作感知传感器

有了视觉和本体感知,机器人可以走路、避障、站得稳。但要真正干活,比如插拔接口、捏起一颗鸡蛋、整理柔软的衣物——它还缺一层最接近皮肤的能力:触觉。

很多具身智能的高价值任务,都是精细操作任务,拿起、放下、插接、装配、抓柔性物体,都依赖细腻的触觉反馈。

虽然触觉感知传感器还远没有像环境感知和自身感知那样成熟,但它很可能成为下一阶段灵巧操作的分水岭。

现阶段常见的触觉传感器主要包括电子皮肤、指尖触觉、阵列式压力传感器和视触觉传感器。

它们分布在机器人手部、夹爪和末端执行器等位置,承担接触检测、压力感知、材质识别和形变判断等任务。

这一领域面临诸多难点。

首先,触觉数据目前缺少足够成熟产品和标准体系。

一位具身智能公司的创始人曾表示,目前市面上没有成熟且可规模应用的触觉传感器产品。不同产品、不同方案之间的定义和采集方式并不统一,导致数据复用难度较高。

其次,耐久性仍然是一个现实问题。触觉传感器长期处在接触、摩擦、挤压的工作状态中,对寿命和稳定性的要求很高。

而且,触觉传感器的集成难度同样非常高。手指和末端执行器的空间有限,传感器既要做得薄,还要兼顾灵敏度和稳定性。

同时,在算法上也难以融合。触觉信号和视觉、动作控制之间的协同仍然比较复杂,算法融合还在持续摸索。

最后是同样存在的成本问题,触觉至今还没有像视觉那样走到大规模低成本普及的阶段。

因此,在触觉这一层,很多公司还在解决耐久性、成本和数据难题。

截屏2026-04-23 18.04.07.png帕西尼感知的布局重点放在两端,一端是传感器产品本身,另一端是围绕触觉构建的数据体系。

产品层面,帕西尼推出了多维触觉传感器 PX-6AX-GEN3,可输出六维力、力分布、材质、温度、回弹等多类触觉信息,具备耐磨抗穿刺与 1000 万次的超高工业级使用寿命,在 0~50°C 的高低温环境下,也能进行高一致性的触觉信息输出。

帕西尼还在建设全模态数据采集工厂,除了 2025 年 4 月在天津落成的全球最大全模态超级数据采集工厂 Super EID Factory 外,还计划在江苏宿迁、湖北武汉、四川自贡、江西赣州再建 4 座超级数据采集工厂;并与云厂商合作推进大规模具身智能数据云商城。

他山科技的切入点更偏底层芯片和感知能力融合。

其研发的数模混合 AI 触感芯片,能够支持高精度三维力感知,也能够识别部分材质信息和近距离接触特征。

截屏2026-04-23 18.04.13.png戴盟机器人则把重点放在触觉数据集建设上,联合多家学术机构与企业,发布了全球最大规模含触觉全模态物理世界具身数据集 Daimon-Infinity。

戴盟称,Daimon-Infinity 提供了目前行业内最高质量的触觉数据。

Daimon-Infinity 数据集依托于戴盟自研的二指夹爪及五指手套数据采集设备,其搭载的含 11 万感知单元、120Hz 高频率视触觉传感器,配合鱼眼相机、编码器、IMU、双目相机,为数据集提供触觉、视觉、动作轨迹、执行动作、语音文本等全维度信息。

总体来看,机器人感知能力的推进路径,对应着三个层次的竞争焦点;

  • 视觉为主的环境感知传感器是入口,负责让机器人看见并理解环境;
  • 力觉为主的本体状态感知传感器是当下的卡点,决定了机器人在动态世界中能否站稳、发力、安全交互;
  • 触觉是下一阶段的突破口,将真正区分「能动的机器人」和「能干的机器人」。

无论是马拉松赛场、工厂产线,还是仓储分拣、家庭服务,人形机器人的规模化落地都始于感知系统。

感知层采集的信息质量会层层传导,影响后续决策和动作执行。

机器人的应用场景正从少量样机验证、单一环境部署,逐步拓展至更复杂的真实场景,同时需要满足更长时间连续运行、更高频率规模化部署的要求。

因此整套感知链路能否形成稳定、可复制、可量产的工业能力,会越来越明显地影响机器人进入真实场景的速度。

这一层能力的突破,可能是决定机器人产业化进程的关键所在。


格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

App内直接打开
商务、渠道、广告合作/招聘立即咨询

相关文章

艾柯医疗二闯科创板:集采8月启动,单品依赖成最大软肋

洞察IPO · 昨天 21:33

cover_pic

AI赋能智驾进阶,千里科技“AI+车”蓝图瞄准L4新赛道

数智猿 · 昨天 21:32

cover_pic

特朗普下令击沉布雷船!霍尔木兹的双重“紧箍咒”

林春木 · 昨天 21:31

cover_pic
我也说两句