全球视野, 下注中国

打开APP

具身智能落地，开始补“感知”这一课

12 小时前9.5k

星河频率

关注人形机器人、具身智能与自动驾驶。

+关注

一套足够稳定、精准的感知系统，是机器人能否在开放环境中可靠工作的前提。

截屏2026-04-23 18.02.40.png 具身智能行业的一个共识是，今年将会成为人形机器人的量产落地元年。

规模铺开的同时，机器人面对的环境也在发生变化：实验室里的结构化场景，正逐渐让位于更加开放的现实世界。

机器人一旦进入真实环境，感知层的重要性就会迅速凸显，而这一层能力在过去长期被低估。

机器人的执行闭环是「感知—决策—动作」。感知一旦掉链子，后续的操作和决策将无法有效执行。

最近的人形机器人半程马拉松就是一个开放场景——长时间户外奔跑、光照变化、路面起伏，让不少机器人的感知系统暴露出不稳定的问题。

一套足够稳定、精准的感知系统，是机器人能否在开放环境中可靠工作的前提。

也正因此，感知层那些原本低存在感的核心零部件，正在被重新估值，感知层，成为机器人落地的关键卡口之一。

顺着这条逻辑往下看，机器人感知能力大致可以分为三层：环境感知、本体状态感知，以及交互与操作感知。

1、看见世界——环境感知传感器

环境感知是机器人进入真实场景的第一道门槛。它决定机器人能不能识别物体、理解空间、判断距离，从而完成导航、避障和抓取定位。

在这一层，核心硬件主要包括两类：

一是视觉传感器，包括 RGB 相机、双目相机、深度相机、鱼眼相机，主要提供图像、纹理和部分深度信息；
二是空间感知类传感器，主要为激光雷达，提供稳定的距离和空间结构信息。

截屏2026-04-23 18.02.53.png 奥比中光Gemini 330系列双目3D相机

不过，在真实环境中，采集到图像信息，并不意味着机器人已经能看懂周围环境。

例如，在复杂光照、动态人流和室内外交替的环境中，RGB 相机获取的画面很容易失真。逆光条件下，目标区域可能变得昏暗难辨；强反光会削弱物体边缘和轮廓信息；到了夜间，图像质量还会进一步下降。

环境中的人和物持续移动，也会增加识别和定位难度，视觉系统容易出现目标丢失、距离判断偏差等问题。

除了复杂光照下稳定性不够，动态场景理解难的问题，环境感知层面还有两个难点。

一个是手眼协同要求高。视觉与激光雷达的观测会随肢体运动产生动态畸变、视角跳变、运动模糊，导致目标位置与深度测量出现瞬时误差。

手、眼、物体三者的相对位姿需要亚厘米级甚至更高精度的实时匹配，稍有偏差就会导致抓取偏移、碰撞或跟踪丢失。

另一个是算力与延迟压力大。

视觉和激光雷达本身都是高数据量传感器。摄像头持续输出图像流，激光雷达持续输出点云。而机器人通常需要装多个传感器，多目相机、深度相机、鱼眼相机、激光雷达一起工作。

这样一来，前端采集到的数据量会非常大，但多源信息融合、3D 建图、目标检测与跟踪、动态障碍物分割等算法本身复杂度高，因此对端侧算力提出很高要求。

其次，环境信息处理一旦不够及时，哪怕只是数百毫秒的延后，经过层层传递，系统拿到的也可能已经落后于现场变化。

这会导致路径判断出现偏差，避障反应变慢，抓取位置不准，还会进一步影响整机动作的稳定性。

因此，机器人进入真实场景后，环境感知器件需要进行一轮明显的升级，从基础的视觉采集，升级为精准识别、稳定跟踪与空间理解能力。

围绕这些问题，行业当前的重点方向主要集中在深度感知和空间理解两个方面。

所谓深度感知，就是让机器人在识别目标之外，进一步获得距离、轮廓和空间层次信息。

空间理解则是在此基础上，对场景结构、障碍物分布、目标物体与周围环境的关系形成更完整的判断。

沿着这个方向，行业出现了两种解法：

从二维看图像升级到三维空间理解；
向多传感器融合演进：从单一视觉升级到视觉+激光雷达等融合方案。

在这一过程中，一批代表性企业已经沿着不同路线展开布局。

奥比中光的重点落在深度视觉能力上。其 Gemini 330 系列双目 3D 相机搭载面向机器人场景自研的深度引擎芯片 MX6800，结合主动与被动成像技术，能够在黑暗、强光等差异较大的光照条件下输出较为稳定的三维数据。

禾赛的思路更偏向空间数据采集与场景还原。其推出的空间智能 AI 硬件产品 Kosmo，将定制化激光雷达、多个摄像头、空间感知算法和 AIGC 能力集成到一个小型设备中，能够把物理三维世界还原为对应的数字化三维场景。

速腾聚创则在多传感器融合和系统简化方向上推进。其推出的 Active Camera，被定位为「机器人之眼」，将深度、色彩和姿态三类核心感知信息在芯片层面进行集成，实现毫秒级时空同步。

截屏2026-04-23 18.03.08.png 相比传统多传感器叠加方案，这种做法减少了系统复杂度，也有助于提升感知结果的一致性和响应效率。

各家厂商的侧重点虽有不同，但目标一致：

让机器人在复杂多变的真实场景中，获得足够稳定、精准的空间理解能力。

2、感知自己——本体状态感知传感器

光有对环境的基础感知还不够。机器人要想在动态中保持平衡、精确出力，还需要另一套「体内感官」——感知自己。

人形机器人是一个高动态系统，走路、转身、上下坡、受扰动、落脚时，都需要实时知道自己的姿态、速度和受力变化，才能维持平衡、控制发力，并完成更稳定的动作执行。

支撑这一层能力的核心器件，主要可以分为两类：

一类是惯性传感器，代表产品是 IMU，它相当于具身智能机器人的「小脑」与前庭系统，核心用于测量自身角速度、线性加速度，支撑姿态估计与动态平衡。
另一类是力矩与力传感器，包括关节扭矩传感器、六维力传感器和足底力传感器，负责感知关节、腕部、足底等位置的受力变化。

本体状态感知层的难点主要集中在三点。

第一，对响应速度和稳定性要求很高。

如果本体状态感知出现延迟，后续控制就容易滞后，打乱动作节奏。同时，在执行高动态动作的过程中，震动、冲击、快速转向和落地反馈又会放大误差，影响就会传递到整条控制链路中。

第二，量产阶段对一致性提出了更高要求。

样机能够跑通，并不意味着批量产品在长时间运行中也能保持同样稳定的表现。机器人进入量产后，传感器的一致性和可靠性会变得更加关键。

第三，小型化、集成和成本压力并存。

六维力和力矩传感器通常要安装在腕部、夹爪末端甚至灵巧手等空间有限的位置，既要做得足够小，又要兼顾测量精度、结构强度和系统兼容性。

而且这类器件的成本一直偏高。以特斯拉机器人为例，双脚所用的两个六维力传感器成本就达到 6700 美元。

截屏2026-04-23 18.03.24.png 因此，传感器的小型化、高动态适应性和量产一致性，是当前行业攻坚的重点。

在这个领域内，出现了两种代表性玩家。

一类是从智驾领域切入、在汽车体系里积淀深厚的玩家，以导远科技为代表。

截屏2026-04-23 18.03.33.png 导远科技推出了车规级 IMU 模组 IMU5146，并已向银河通用交付。

该 IMU 模组姿态测量精度达到 0.05°，输出频率 1000Hz 且延迟极低，能够实时捕捉机器人的微小倾斜与晃动，有效避免响应滞后导致的失衡。

截屏2026-04-23 18.03.51.png 更重要的是，导远把车规级的可靠性、一致性和量产能力带入了机器人自身感知层。

其产品支持-40℃至 105℃宽温运行，可承受 2000g 极限冲击，适配人形机器人在跳跃、翻滚等高强度动态下的感知需求。

此外，导远拥有从底层芯片、算法软件到模组系统及精密制造的全栈能力，能够从芯片级开始定义产品逻辑，具备较高的灵活性。

基于这种可扩展、高可靠且经济高效的时空智能解决方案，导远已经成功从汽车向机器人、工程机械、可再生能源系统等领域快速扩张。

另一类是以坤维科技和鑫精诚为代表的专业力传感器厂商。

坤维科技推出了专为人形机器人手腕和脚踝设计的 HRS 人形系列，最薄尺寸仅 10 毫米，重复精度优于 0.1%FS，已批量供货优必选、智元、银河通用等头部企业。

截屏2026-04-23 18.03.59.png 鑫精诚则聚焦 MEMS 六维力传感器，已完成试样验证并形成小批量订单，正在建立覆盖指尖、手腕、脚踝三大关键部位的自动化产线，布局更多指向后续的规模化供给能力。

4、接触世界——交互与操作感知传感器

有了视觉和本体感知，机器人可以走路、避障、站得稳。但要真正干活，比如插拔接口、捏起一颗鸡蛋、整理柔软的衣物——它还缺一层最接近皮肤的能力：触觉。

很多具身智能的高价值任务，都是精细操作任务，拿起、放下、插接、装配、抓柔性物体，都依赖细腻的触觉反馈。

虽然触觉感知传感器还远没有像环境感知和自身感知那样成熟，但它很可能成为下一阶段灵巧操作的分水岭。

现阶段常见的触觉传感器主要包括电子皮肤、指尖触觉、阵列式压力传感器和视触觉传感器。

它们分布在机器人手部、夹爪和末端执行器等位置，承担接触检测、压力感知、材质识别和形变判断等任务。

这一领域面临诸多难点。

首先，触觉数据目前缺少足够成熟产品和标准体系。

一位具身智能公司的创始人曾表示，目前市面上没有成熟且可规模应用的触觉传感器产品。不同产品、不同方案之间的定义和采集方式并不统一，导致数据复用难度较高。

其次，耐久性仍然是一个现实问题。触觉传感器长期处在接触、摩擦、挤压的工作状态中，对寿命和稳定性的要求很高。

而且，触觉传感器的集成难度同样非常高。手指和末端执行器的空间有限，传感器既要做得薄，还要兼顾灵敏度和稳定性。

同时，在算法上也难以融合。触觉信号和视觉、动作控制之间的协同仍然比较复杂，算法融合还在持续摸索。

最后是同样存在的成本问题，触觉至今还没有像视觉那样走到大规模低成本普及的阶段。

因此，在触觉这一层，很多公司还在解决耐久性、成本和数据难题。

帕西尼感知的布局重点放在两端，一端是传感器产品本身，另一端是围绕触觉构建的数据体系。

产品层面，帕西尼推出了多维触觉传感器 PX-6AX-GEN3，可输出六维力、力分布、材质、温度、回弹等多类触觉信息，具备耐磨抗穿刺与 1000 万次的超高工业级使用寿命，在 0~50°C 的高低温环境下，也能进行高一致性的触觉信息输出。

帕西尼还在建设全模态数据采集工厂，除了 2025 年 4 月在天津落成的全球最大全模态超级数据采集工厂 Super EID Factory 外，还计划在江苏宿迁、湖北武汉、四川自贡、江西赣州再建 4 座超级数据采集工厂；并与云厂商合作推进大规模具身智能数据云商城。

他山科技的切入点更偏底层芯片和感知能力融合。

其研发的数模混合 AI 触感芯片，能够支持高精度三维力感知，也能够识别部分材质信息和近距离接触特征。

戴盟机器人则把重点放在触觉数据集建设上，联合多家学术机构与企业，发布了全球最大规模含触觉全模态物理世界具身数据集 Daimon-Infinity。

戴盟称，Daimon-Infinity 提供了目前行业内最高质量的触觉数据。

Daimon-Infinity 数据集依托于戴盟自研的二指夹爪及五指手套数据采集设备，其搭载的含 11 万感知单元、120Hz 高频率视触觉传感器，配合鱼眼相机、编码器、IMU、双目相机，为数据集提供触觉、视觉、动作轨迹、执行动作、语音文本等全维度信息。

总体来看，机器人感知能力的推进路径，对应着三个层次的竞争焦点；

视觉为主的环境感知传感器是入口，负责让机器人看见并理解环境；
力觉为主的本体状态感知传感器是当下的卡点，决定了机器人在动态世界中能否站稳、发力、安全交互；
触觉是下一阶段的突破口，将真正区分「能动的机器人」和「能干的机器人」。

无论是马拉松赛场、工厂产线，还是仓储分拣、家庭服务，人形机器人的规模化落地都始于感知系统。

感知层采集的信息质量会层层传导，影响后续决策和动作执行。

机器人的应用场景正从少量样机验证、单一环境部署，逐步拓展至更复杂的真实场景，同时需要满足更长时间连续运行、更高频率规模化部署的要求。

因此整套感知链路能否形成稳定、可复制、可量产的工业能力，会越来越明显地影响机器人进入真实场景的速度。

这一层能力的突破，可能是决定机器人产业化进程的关键所在。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

App内直接打开

商务、渠道、广告合作/招聘立即咨询

我也说两句

1、看见世界——环境感知传感器

2、感知自己——本体状态感知传感器

4、接触世界——交互与操作感知传感器

相关文章

艾柯医疗二闯科创板：集采8月启动，单品依赖成最大软肋

AI赋能智驾进阶，千里科技“AI+车”蓝图瞄准L4新赛道

特朗普下令击沉布雷船！霍尔木兹的双重“紧箍咒”