星源智全球首个具身交互世界模型ω-EVA发布

全球视野, 下注中国

打开APP

8 小时前3.6k

IPO早知道

关注IPO最新资讯，第一时间传播市场动态及投资价值。

+关注

具身智能进入交作业阶段，星源智押注场景与交互。

本文为IPO早知道原创

作者｜SY

6月13日举行的2026智源大会上，具身智能公司星源智发布全球首个交互世界模型ω-EVA。与当前行业普遍将世界模型用于训练辅助不同，星源智试图让世界模型直接参与机器人动作决策，使其具备预测未来状态并修正动作的能力。

具身智能已成为资本市场最热门的赛道之一。数据显示，截至5月底，国内机器人领域一级市场融资已达434起，融资金额746亿元。同时，融资阶段后移、投资方向向产业链上游转移、头部公司增速回落等信号也显示了资本开始回归理性，具身智能行业从讲故事进入交作业阶段。

围绕技术路线、商业化路径和产业分工的话题仍在继续。VLA与世界模型谁会成为未来主流架构，具身终端先在实验室里训练还是先进入具体场景，具身领域未来的壁垒，会像大语言模型一样来自数据规模与模型能力，还是来自对真实场景的占领与持续运营能力？

某种程度上，星源智此次发布的交互世界模型ω-EVA，恰好落在这些行业讨论的交汇点上。在当天的模型发布过程中，“交互”与“场景”也是被反复提及的关键词。

按照星源智的设想，机器人在执行动作之前，能够先对未来状态进行预测和评估，再决定是否执行当前动作，从而形成“预测—修正—执行”的闭环。“具身智能不仅要会看、会听、会生成动作，还需要在行动之前理解交互后果，并在真实反馈到来之前继续修正自己。”星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国称。

ω-EVA提出“Proposal—Latent Consequence—Refinement”机制（图片来源：星源智）

据了解，ω-EVA并非一次孤立的产品发布。其技术脉络可以追溯到星源智具身世界模型团队此前在医疗机器人和双臂灵巧操作领域的研究积累。该团队在心脏超声导航项目Cardiac Copilot以及双臂操作项目DECO中，持续探索机器人如何理解动作后果、如何将多模态信息组织进决策过程，而这些能力最终成为交互世界模型的重要基础。

心脏超声导航项目Cardiac Copilot示意（图片来源：星源智）

发布会现场，星源智展示华容道世界模型互动、流水线智能分拣、机器狗清洁官与机器人咖啡服务等具身智能场景。其中，华容道世界模型互动聚焦受限空间中的逻辑推演与连续决策。要求机器人在有限棋盘内理解滑块、空格与移动约束之间的关系，并持续评估每一步动作对后续路径的影响。观众可现场打乱棋局，机器人通过观察当前格局、理解约束关系，最终自主完成还原任务。

华容道世界模型演示（图片来源：星源智）

从实验室走向真实世界，是本次发布反复出现的一条主线。无论是华容道推演、流水线分拣，还是机器人咖啡服务，星源智展示的几乎都是围绕真实任务展开的场景。这也折射出公司对于具身智能的一种判断：未来竞争的关键，不仅在于模型能否理解世界，更在于模型能否持续进入场景、获得反馈，并完成迭代。

相较于其他具身本体和模型公司，星源智将自身定位为具身智能基础设施提供者。星源智创始人兼CEO刘东在交流中多次强调，星源智不会做机器人本体，而是聚焦具身大脑、世界模型和端侧部署能力，希望成为具身厂商背后的能力供应商。

在刘东看来，未来具身智能行业未必会走向全面全栈化，而更可能形成类似自动驾驶产业的分工格局：少数头部企业坚持自研，大量本体厂商则采购成熟的具身大脑方案。随着行业从技术验证走向规模化落地，这门“卖铲子”生意也将受到更多关注。

ω-EVA模型发布当天，刘东、孙振国与星源智联合创始人兼算法负责人何嘉伟三位管理层与IPO早知道等机构进行交流，内容涉及技术路线、端侧部署、数据策略、商业化落地以及产业格局等话题。以下为访谈内容精编：

从左至右依次为：孙振国、刘东、何嘉伟（图片来源：星源智）

技术路线与模型创新

Q：有观点认为ω-EVA更强调动作预测和交互能力，相比语言理解有所弱化，您怎么看？

刘东：其实并不能这么理解。我们最初的具身大脑模型就是基于VLM基座构建的，它本身具备较强的语言理解和图像理解能力。但过去这类模型更多停留在理解、识别和任务规划阶段，能够理解用户指令、识别环境信息，也能够完成一定程度的任务拆解和规划，却缺少对未来状态的预测能力，以及将动作条件纳入统一建模的能力。

这次发布的ω-EVA，本质上是在原有能力基础上补齐了预测和动作能力。模型依然保留了空间理解、3D语义地图生成以及任务理解等能力，同时进一步具备了预测未来状态、理解动作后果并进行动作修正的能力。我们的思路一直没有变化：不是推翻原有能力，而是在已有能力基础上持续补充新的能力模块，让模型最终能够形成完整闭环，并具备真正落地的能力。

Q：当前具身智能领域主流的VLA路线和世界模型路线分别在解决什么问题？两者最大的区别是什么？

孙振国：从目前行业发展来看，VLA和世界模型本质上是在解决两个不同层面的问题。

VLA更关注如何建立从视觉到动作之间的映射关系。它希望通过大量数据学习，让机器人看到环境之后直接输出动作，因此核心目标是构建一个更好的感知—决策—执行链路。

世界模型则更关注机器人对环境规律的理解。它不仅要知道当前环境是什么样子，还要知道如果执行某个动作，未来会发生什么变化。换句话说，世界模型试图学习的是环境演化规律以及动作与结果之间的因果关系。

目前行业很多工作都在尝试将两者结合起来，希望既拥有VLA直接生成动作的能力，又具备世界模型对未来状态进行预测和推演的能力。我们认为，世界模型真正的价值并不只是帮助VLA获得更好的表征，而是在未来能够直接参与动作决策过程。

Q：如何理解交互世界模型中的“交互”？为什么世界模型需要引入交互？

孙振国：这是我们提出交互世界模型最核心的出发点。

目前很多世界模型的工作，更多是把世界模型当成训练阶段的辅助工具。比如利用世界模型产生额外训练信号，或者约束表征空间，让模型学到更好的环境表示。但如果世界模型最终只是承担这些职责，那么它所发挥的作用其实非常有限。

世界模型最大的优势在于对未来状态的预测能力。它不仅能够理解当前环境，还能够推演未来在空间和时间维度上的变化过程。这种能力天然强于单纯基于VLM构建的VLA模型。

因此我们认为，如果要充分发挥世界模型的价值，就应该让它真正参与动作环节。具体来说，当机器人准备执行某个动作时，世界模型可以先预测这个动作可能带来的后果。如果预测结果不理想，那么机器人可以在执行前调整策略；如果预测结果更优，则继续执行。这样世界模型就不再只是训练时的辅助模块，而是直接参与决策过程。

这就是我们所说的交互。通过这种方式，世界模型对未来的理解能力能够真正作用于当前动作，并形成“预测—修正—执行”的闭环。进一步发展下去，它甚至有机会成为自我进化智能体的重要基础。

ω-EVA在隐空间完成未来状态推演与动作修正。（图片来源：星源智）

Q：为什么选择以动作而非语言作为世界模型的条件输入？这种设计优势体现在哪里？

孙振国：目前很多世界模型本质上仍然沿用了视频生成模型的发展思路。例如在视频生成领域，人们输入一句自然语言，模型根据文字描述生成未来的视频内容。对于视频生成来说，这种方式没有问题，因为它追求的是开放式内容生成。

但具身智能面临的情况不一样。同样一个任务，不同的人可能会给出完全不同的语言描述。语言本身存在模糊性和歧义性，这会导致模型对于未来状态的预测产生不确定性。而动作条件则不同。动作是明确、可控且唯一的输入。当机器人执行一个具体动作时，对应的未来状态理论上也具有更明确的约束关系。因此，如果以动作作为条件输入，模型更容易学习动作与未来状态之间的因果关系。对于机器人而言，它真正需要解决的问题并不是想象未来，而是执行某个动作之后会发生什么。因此我们认为，动作条件比语言条件更适合作为具身世界模型的基础。

Q：星源智为什么没有选择以视频生成为核心的世界模型路线？

孙振国：我们并不认为视频生成路线是具身智能最优的发展方向。目前很多世界模型会同时预测未来视频和未来动作，希望通过视频生成来学习世界规律。但在我们看来，这里面存在一个根本性问题。

视频生成和动作生成其实对应着两个不同目标。如果更关注视频质量，那么训练过程中会提高视频生成相关损失项的权重；如果更关注动作质量，又会提高动作生成相关损失项的权重。两者并不天然一致，甚至在某些情况下会出现目标冲突。因此很多视频生成路线最终只能把世界模型作为训练辅助工具，通过预测未来视频来帮助模型学习表征，而很难真正进入动作决策环节。

我们选择的是动作条件路线。动作本身也能够帮助模型预测未来状态，但我们并不要求模型生成一段可供人类观看的视频。机器人真正需要的是理解未来状态变化规律，而不是生成一个视觉效果更好的未来画面。从这个角度来说，我们更关注模型是否学到了动力学规律，而不是是否生成了一段高质量视频。

Q：世界模型在自我进化方面，相比VLA有什么天然优势？目前有哪些研究进展？

孙振国：世界模型天然适合承担自我进化的载体。

原因很简单。它能够预测动作执行之后的未来状态，同时也能够获得真实世界的反馈。如果预测结果与真实结果之间存在偏差，那么模型就可以持续修正自己的预测能力。随着这种修正不断发生，模型对于世界规律的理解会越来越准确。

相比之下，VLA想要实现自我进化，往往需要引入强化学习、真机强化学习或者人类反馈等额外机制。而对于世界模型来说，这种能力本身就天然存在于框架之中。

持续交互、自我进化视为交互世界模型的下一阶段目标。（图片来源：星源智）

从长期来看，我们希望机器人能够实现越用越好的能力。它不仅能够提高已有任务的成功率，也能够以更低成本学习新的技能。去年我们曾在这一方向进行过探索，并在《Nature Machine Intelligence》发表相关成果，当时我们将其称为终身学习。未来我们仍然会持续投入这一方向，因为我们认为这也是世界模型最值得期待的潜力之一。

工程部署与端侧能力

Q：ω-EVA的研究链路相对较长，端侧部署时会不会存在延迟或实时性问题？

刘东：不会。实际上，我们在设计ω-EVA的时候，就没有把它定位成一个只能跑在实验室服务器上的模型，而是从一开始就按照端侧部署的目标进行设计。很多人会认为世界模型天然比较复杂，因为它不仅要理解环境，还要预测未来状态，所以推理链路一定会很长。但我们的思路恰恰相反：如果一个模型最终无法部署到机器人端侧，那么它的实际价值会受到很大限制。

因此，在模型开发阶段，我们就非常关注参数规模控制、推理效率以及端侧平台适配等问题。围绕这些问题，我们做了大量底层优化工作。目前来看，ω-EVA在不依赖云端模型的情况下，依然能够实现较高帧率运行，并满足机器人实时控制需求。

Q：模型需要进行大量动作预测，是否意味着端侧需要承担更高的推理计算成本？

孙振国：很多人会有这样的误解，认为既然世界模型要预测未来，那么一定会带来更大的计算负担。实际上并不是这样。

首先，我们的模型本身体量并不大。其次，我们整个训练过程虽然分成三个阶段，但部署阶段并不会把三个阶段全部搬到机器人上运行。前两个阶段更像是在训练过程中帮助模型建立稳定的动作表征和预测能力，它们主要服务于训练，而不是服务于最终推理。

真正部署的时候，机器人只需要完成两个核心步骤。第一步是提出一个动作。第二步是让这个动作与世界模型进行交互，并获得最终结果。因此，最终推理链路其实没有大家想象得那么复杂。

更重要的是，我们大量计算都发生在隐空间（latent space）中，而不是生成视频或者图像。如果你真的去生成未来视频，那么计算量会非常大；但如果只是在隐空间中预测未来状态，那么计算成本会低很多。所以整体来看，我们的推理链路不仅没有比现有VLA更长，在某些情况下甚至可能更快。

Q：端侧部署对于具身机器人为什么如此重要？

刘东：这是一个非常现实的问题。如果不能端侧部署，那么机器人就只能依赖云端。而一旦依赖云端，就会遇到很多工程上的困难。最直观的问题是，机器人到底怎么把数据传上去。现在一台机器人往往不只是一个摄像头。很多机器人至少有十个左右摄像头，有些还会配备激光雷达、深度传感器等设备。这些传感器每时每刻都在产生大量数据。如果把这些数据全部实时传输到云端，再由云端完成推理后返回结果，那么带宽需求会非常惊人。一台机器人可能还好解决，但如果一个仓库、一家工厂、一个物流中心同时部署几十台甚至上百台机器人，那么整个网络压力会急剧上升。

除此之外，还有延迟问题。机器人不是互联网应用。你可以接受搜索引擎慢一秒返回结果，但机器人不能接受慢一秒再决定下一步动作。摄像头通常以30赫兹频率采集图像，而机器人控制频率至少需要达到10赫兹以上。也就是说，每100毫秒左右，机器人就需要完成一次感知、决策和执行。如果这个过程中还要经过网络传输，那么延迟会迅速累积。

另外还有成本问题。如果未来机器人需要长期依赖5G、6G或者专用网络进行实时通信，那么整个部署成本会非常高。

因此，对于具身智能来说，无论是世界模型还是VLA，最终都必须尽可能在端侧完成推理。过去很多系统依赖云端协同，并不是因为云端更合理，而是因为当时端侧算力还不够。随着硬件的发展，我们认为未来绝大多数关键决策都会逐步回到机器人本体内部完成。

Q：与英伟达Dream Zero等世界模型路线相比，星源智的差异在哪里？两种路线在部署方式和建模思路上的本质区别是什么？

孙振国：首先需要说明的是，不同团队对于世界模型的目标定位并不完全一样。以Dream Zero为例，它更偏向于打造一个大规模基座模型。这类路线通常会采用比较大的参数规模，同时通过大量数据训练获得更强泛化能力。英伟达本身拥有非常强的工程团队，因此能够对模型进行极致优化。即便如此，目前这类模型更多还是运行在桌面级GPU环境，而不是真正意义上的机器人端侧。这其实也是很多大模型路线面临的共同挑战。

而我们的路线有所不同。我们选择的是隐空间建模方式，比较接近JEPA这类技术思路。这类方法更加关注环境状态之间的关系，以及动作和未来状态之间的因果关系，而不是生成高保真的视频内容。因此，无论训练还是推理，对于算力资源的需求都会更低。

从我们的角度来看，机器人最终需要的是一个能够长期稳定运行、能够实时决策、能够完成动作闭环的系统。因此，我们更关注模型能否真正跑在机器人上，而不仅仅是模型规模能够做到多大。

商业化落地与竞争壁垒

Q：如果坚持先提升模型能力上限，那么这种能力目前是否已经在真实场景中得到验证？

刘东：我们已经在一些场景完成了验证。其中最典型的就是具身叉车项目。很多人会觉得叉车好像是一个比较传统的行业，但恰恰因为它足够传统，所以能够很好体现具身智能带来的变化。

过去十几年里，行业已经有很多自动化叉车和AGV方案。但这些方案解决的是自动化问题，而不是泛化问题。自动化意味着场景高度固定，例如货物放在哪里、托盘长什么样、车辆停在哪里，最好都是提前定义好的，但现实物流场景并不是这样。

停车场里的卡车大小不同，运输货物不同，托盘形态不同。甚至同一辆车，每次装载方式都可能不同。这些变化会让传统规则系统迅速失效。

而具身智能真正解决的问题，是如何在这些变化中依然完成任务。我们希望机器人能够像人一样理解现场环境，然后自主决定应该怎么卸货、先卸哪一部分、后卸哪一部分，如何避免碰撞，以及如何保证最终作业完成。从目前项目实践来看，这类能力已经开始展现价值。

Q：据了解，星源智的具身装卸，如机器狗捡垃圾这些项目已实现真实场景落地，其核心技术点是什么？星源智领先同行业实现场景落地的优势是什么？

何嘉伟：我们具身基座可以适配不同的本体，无论是具身装卸，还是机器狗。当然，也包括人形、轮臂的机器人，我们均能适配，这是我们的优势。

在算法端，我们在跨本体性能和端侧部署上都相对领先，迁移成本更低，整个开发周期也更快。比如叉车项目，从开始到第一版的整合系统，我们用了2个月左右的时间。

实际上，我们整个算法系统可复用且完全端侧部署，这些优势使得我们在一些项目上相对领先。

Q：从落地实践来看，目前具身模型的应用场景大致可以分为哪些类型？不同场景的落地难度如何？

刘东：如果按照当前行业发展情况来看，我认为大致可以分成三个层次。

第一类是纯移动场景。例如巡检、导览、导购等。这些场景对操作能力要求不高，本质上是移动能力加上基础交互能力，因此相对容易落地。

第二类是操作类场景。例如抓取、放置、搬运、上下料等任务。目前行业在抓和放两个动作上已经取得了比较明显的进展，因此很多仓储和工业场景已经具备落地基础。当然，这并不意味着问题已经完全解决。虽然大部分标准场景已经可以完成，但面对特殊物体或者复杂情况时，成功率仍然需要进一步提升。

流水线智能分拣现场演示（图片来源：星源智）

第三类则是复杂任务场景。例如酒店服务、家庭服务、家庭清洁等。这些场景环境变化极大，任务类型非常丰富，同时又需要机器人具备长期自主工作能力。我认为这类场景距离真正规模化落地还有比较长的路要走。

如果用一句话概括，就是：移动类最先落地；操作类正在突破；家庭场景仍需等待。

Q：相比业内其他具身大模型公司，星源智的竞争优势体现在哪些方面？

刘东：我认为主要有三个方面：

第一是模型能力。我们始终把模型能力作为最核心竞争力。具身智能最终还是一个智能问题，如果模型能力不够强，那么后面的所有东西都很难成立。

第二是系统能力。很多人只关注模型本身，但实际上模型能否真正运行起来，还取决于端侧算力平台、推理框架以及工程优化能力。我们在这些方面投入了大量工作，因此能够让模型真正部署到设备端运行。

第三是场景数据。这一点往往容易被忽略。对于物流行业来说，仅仅拥有一个模型远远不够。你还需要理解行业流程、行业规则以及各种真实场景。这些能力最终都会沉淀为数据。以叉车场景为例，我们已经积累了大量物流场景和叉车场景数据，并基于这些数据持续训练模型。如果没有这些数据积累，即使拥有先进模型，也很难快速进入这个行业。

因此，我们认为未来真正的壁垒不会来自单一技术，而是模型能力、系统能力以及场景数据共同构成的综合优势。

Q：成立仅10个月即完成超过10亿元规模的融资，投资人选择星源智最看重什么？

刘东：首先是技术潜力。虽然我们成立时间相对较短，但模型能力和算法能力已经达到行业领先水平。对于投资人来说，如果能够找到一个技术能力强、估值又相对合理的团队，自然会愿意投入。

其次是商业化进展。目前很多具身公司仍然把落地时间放在两三年以后，但我们已经开始在真实场景中推动项目落地。这一点对投资人来说非常重要。他们不仅关注未来，也关注今天是否已经开始创造价值。

另外，我们的定位也比较特殊。我们是一家专注于具身大脑的公司。今天很多机器人本体公司，其实都可能成为我们的客户。我们不仅提供模型能力，也提供端侧算力平台和相关基础设施。某种程度上，我们更像是具身智能行业里的“卖铲人”。未来如果整个行业持续发展，那么对于具身大脑和基础设施的需求也会同步增长。我认为这也是投资人看好我们的原因之一。

数据策略与训练效率

Q：从VLA到世界模型，行业讨论重点正在从数据量转向数据效率。星源智如何看待这一变化？

孙振国：这是世界模型相较于VLA最明显的优势之一。VLA本质上更接近模仿学习。模仿学习有一个天然特点：它更依赖成功轨迹。也就是说，如果想训练一个效果较好的VLA模型，那么通常需要大量高质量、可复现、能够完成任务的数据。

对于机器人行业来说，这类数据获取成本其实非常高。因为现实世界的数据采集并不像互联网数据那样天然存在。很多时候需要工程师亲自操作机器人完成任务，然后记录完整过程。目前行业里有一个比较普遍的共识：一个数据采集人员工作8小时，最终能够留下来的高质量有效数据，可能只有3小时左右。原因很简单，机器人会出错，操作人员会出错，环境会发生变化，很多数据最终并不能直接用于模仿学习训练。

而世界模型不一样。世界模型学习的并不是正确答案本身，而是动作与结果之间的关系。对于它来说，即便任务失败，这条轨迹依然有价值。因为模型仍然能够学习到：这个动作为什么失败；失败之后环境发生了什么变化；下一次应该如何调整。因此，很多在VLA里会被直接丢弃的数据，在世界模型里依然可以被利用。从这个角度来看，同样8小时的数据采集成本，世界模型能够获得更多有效训练数据。我们认为，这也是为什么越来越多团队开始关注世界模型的重要原因之一。

Q：如果要让动作预测能力真正成熟，最关键的投入是什么？是资金、数据还是其他要素？

孙振国：我认为三者都重要，但最关键的仍然是场景数据和技术路线。目前行业有一个客观现实：以动作作为条件输入的数据仍然非常稀缺。过去几年，大量世界模型研究都是围绕视频生成展开的，因此行业积累了很多视频数据和视频生成模型。

但对于机器人来说，仅仅拥有视频并不够。机器人最终需要知道的是：执行某个动作之后会发生什么。因此真正有价值的数据，其实是动作与环境变化之间的数据。而这类数据目前远远少于视频数据。这也是为什么很多团队会选择从视频生成模型出发，希望利用已有的视频能力再逐步迁移到具身领域。

但在我们看来，这里面存在一个问题。视频生成和机器人动作本质上是两个不同目标。视频生成更关注视觉内容是否合理、是否逼真。机器人更关注动作是否正确、任务是否完成。因此，当你试图把一个视频生成模型改造成机器人世界模型时，本质上是让模型不断修正自己的目标。这会消耗大量数据和训练资源。而我们的路线从一开始就是围绕动作与未来状态共同建模。

因此，即便未来同样需要更多机器人数据进行微调，我们的数据需求和训练成本依然会更加可控。从长期来看，我们当然希望不断扩大模型规模。但比起单纯堆积参数量，我们更关注如何让每一份机器人数据产生更高价值。

Q：随着行业进入规模化阶段，未来数据会成为具身智能最大的壁垒吗？

孙振国：我认为数据一定会成为重要壁垒，但不会是唯一壁垒。回顾大模型行业，真正形成竞争优势的从来不是单一因素。数据重要，算力重要，模型架构同样重要。具身智能也是如此。拥有更多数据，能够帮助模型获得更强能力，但如果技术路线本身存在问题，再多数据也未必能够转化为优势。相反，正确的技术路线可以让数据发挥更大价值。

因此我们始终认为，技术路线判断和场景数据积累同样重要。前者决定方向是否正确，后者决定能力能走多远。对于具身智能来说，两者缺一不可。

产业生态与商业模式

Q：如果越来越多本体厂商选择全栈自研，会不会压缩第三方具身大脑公司的市场空间？星源智未来会做本体吗？

刘东：首先可以明确一点，我们不会做本体。从我们的判断来看，未来具身智能行业一定会出现全栈公司，但数量不会太多。

今天行业里已经有接近200家具身相关企业。如果每家公司都同时做本体、做模型、做控制系统、做供应链、做制造，那么绝大多数企业都会被巨大的研发投入拖垮。

全栈模式本身是一种非常昂贵的商业模式，只有极少数企业具备这样的能力。例如特斯拉。它本身拥有足够大的收入规模和现金流，可以同时承担模型研发、本体研发以及大规模制造成本。但对于绝大多数企业来说，这条路并不现实。

因此我认为未来行业里可能会出现两到三家全栈公司，但不会更多。更多企业仍然会选择专业化分工，有些公司擅长做本体，有些公司擅长做大脑，有些公司擅长做场景，这是更符合商业规律的发展方式。

Q：如果华为、字节、腾讯等大厂未来全面进入具身智能赛道，星源智如何应对？

刘东：从我们的角度来看，大厂进入并不意味着马上就能建立优势。具身智能和互联网行业最大的不同在于，场景极其分散。自动驾驶虽然复杂，但本质上主要面对道路场景；而具身智能不同，物流是一个场景，工厂是一个场景，家庭又是另一个场景。每个场景都有完全不同的数据、流程和行业知识。

即便一家企业拥有非常强的基础模型能力，也不意味着能够迅速进入所有行业。以物流行业为例，如果没有长期积累的物流数据和作业经验，仅靠一个基础模型很难快速进入这个市场。这也是为什么很多大厂到今天仍然没有全面下场的重要原因。具身智能的潜力很大，但场景还没有完全收敛。物流、家庭、工业、服务业，每个方向看起来都有机会，但每个方向又都需要长期投入。对于大厂来说，他们通常希望进入一个确定性更高的市场，而当前行业仍处于探索阶段，因此很多企业还在观察，等待更明确的落地方向。

因此我们认为，未来真正的竞争不只是模型竞争，更是场景竞争。谁能够更早进入场景、理解场景、积累场景数据，谁就更容易建立优势。

Q：类比自动驾驶行业，为什么您认为具身智能也会出现“自研+第三方合作”并存的格局？

刘东：一定会有企业选择自研，这一点毫无疑问。但我不认为最终所有企业都会自研。

因为机器人行业的客户结构远比汽车行业复杂，汽车行业最终面对的是少数几家大型车企，而机器人行业未来可能会出现大量不同类型本体厂商。这些企业规模、能力以及资源投入水平差异非常大，因此不可能采用同一种发展路径。

从我们的角度来看，最终决定市场格局的还是商业价值。如果第三方方案能够帮助客户更快落地、更低成本完成任务，那么市场自然会存在大量合作机会。反过来，如果客户发现自己做得更好，那么他们也会选择自研。最终市场会给出答案。而我们的目标，是持续打造在垂直场景中真正具备竞争力的具身大脑能力，让客户愿意选择我们，而不是被迫选择我们。

行业判断与未来趋势

Q：如果将具身智能的发展阶段类比自动驾驶L1-L5，行业目前大致处于什么阶段？

刘东：我觉得大概相当于2015年前后的自动驾驶行业。当时整个行业都在讨论L4、L5，所有人都在讲未来，但真正能够规模化落地的能力其实还比较有限。今天的具身智能也有类似特征。大家都在追求通用机器人，希望机器人能够适应各种复杂场景，但真正能够稳定落地的场景仍然相对有限。因此，我认为行业还处于非常早期的发展阶段。

这既意味着风险，也意味着机会。因为很多关键问题还没有被真正解决。但与此同时，也没有哪家公司已经建立起绝对优势。

Q：未来具身大脑市场最终会形成怎样的竞争格局？

刘东：我不认为最终会只剩下一家公司。因为具身智能和互联网产品不一样，互联网产品往往存在非常强的网络效应，因此容易形成高度集中。但具身智能面对的是大量不同场景。物流场景有物流场景的数据，家庭场景有家庭场景的数据，工业场景有工业场景的数据，这些场景之间差异非常大。因此我认为未来更可能出现的是几家各自擅长不同领域的公司，有的擅长物流，有的擅长家庭，有的擅长工业。大家都会形成自己的数据壁垒和场景壁垒。最终行业会留下几家主要玩家，但很难出现一家企业覆盖所有场景。

Q：从未来五年的行业发展看，您认为具身智能最重要的竞争点是什么？

刘东：我认为未来五年最重要的事情，不是谁先做出最像人的机器人，而是谁能够率先把机器人真正部署到真实场景中持续创造价值。

对于具身智能来说，技术突破当然重要。但最终决定行业格局的，仍然是能否解决真实问题。那些能够率先进入场景、积累数据、形成闭环，并持续创造商业价值的公司，更有机会成为下一阶段行业发展的核心力量。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

App内直接打开

商务、渠道、广告合作/招聘立即咨询

我也说两句

相关文章

CPO/硅光场景受益环节：MPO（光纤连接器）供应格局梳理

40万元！定制元宇宙陆上赛艇训练、赛事的AR眼镜设备项目招标

博睿康IPO冲“脑机接口第一股”，对赌要求上市估值至少50亿