实现AGI,我们必须补上世界模型这一课!

2 天前10.3k
世界模型不再是营销口号,而是定义下一代竞争力的核心,而真正的智能始于世界而非语言这一理念正被越来越多的实践验证。

文/劲草

来源/万点研究

1.png

近日,图灵奖得主、深度学习“三巨头”之一、曾长期担任Meta AI首席科学家的杨立昆(Yann LeCun)博士,在Welch Labs访谈中再次直言:当前大语言模型和生成式AI,难以通往真正的AGI(通用人工智能)。

杨博士不是首次这样陈述自己的观点,早在2022年提出JEPA等世界模型相关思路时,他就强调AI需要构建对物理世界的内部模拟规划和因果理解、而非单纯依赖语言预测。后续在多个访谈、演讲和社交媒体中,针对大模型的批评变得更加鲜明和公开。所以,LeCun的观点不是在GPT彻底火爆后的“临时转向”,而是建立在他长期对AI智能、世界模型和AGI实现路径的深入研究基础上的。

在笔者看来,这并非否定大模型的巨大价值,而是对技术路径的清醒校准。大模型在语言理解、代码生成、内容创作等领域已展现超凡生产力,极大降低了个人与企业的门槛。但其本质是“下一个token预测”的统计机器,擅长模式匹配,却缺乏对物理世界因果关系、时空连续性和长期规划的深刻建模。这正是为什么它们在聊天和写作上得心应手,却难以直接驱动需要真实交互的具身智能系统——机器人自主行动、高阶自动驾驶或复杂工业场景。LeCun的判断,体现了顶级科学家的战略视野:我们不能被短期繁荣蒙蔽双眼,必须为下一范式布局。

如上所言,杨立昆的解决方案指向明确:转向世界模型(World Model)。这不是简单升级,而是AI从“会说话”向“懂世界、会行动”的根本跃迁。世界模型的可预测、可模拟、可规划的“内心模拟器”特征,能够让AI像人类一样通过观察、预测多步后果并决策,而这种能力正是通往AGI的关键桥梁。

世界模型帮助AI认知“物理世界”

世界模型擅长理解物理规律、时空动态和因果关系,强调预测未来状态。比如“假使我这样做,世界会怎样变化”,在脑中模拟多种行动序列,选择最佳路径,实现目标。更重要的是世界模型的反事实推理能力,比如“如果当时不这么做,会发生什么”。

而人类智能的根基也正是这种“世界模型”。婴儿通过感官互动逐步构建对重力、物体持久性和社会规则的理解,进而发展高级认知。

从这一点推敲,AI若要实现通用智能,这一课必须补上。

很长一段时间内,AI发展注重处理符号,比如文字、数字、图像、语音等,而世界模型更加关注“具身 grounding”的回归,这也提示当前LLM的局限性已日益显现——它们在封闭环境中表现亮眼,但在开放物理世界中易出现“幻觉”或不可预测行为。

而世界模型通过视频、传感器等多模态数据训练,能习得更稳健的物理一致性,这对机器人、自动驾驶等落地场景至关重要,高阶自动驾驶实现真正零事故、机器人全面进入工厂与家庭、医疗AI从辅助诊断走向自主干预。

想象一下:工厂内智能机器人自主规划复杂装配,城市中Robotaxi无缝应对突发路况,家庭机器人理解人类意图并安全协作,这些场景不再是科幻,而是世界模型成熟后的必然结果。

简单总结:LLMs像一个博学的“聊天高手”,但出门就迷路;世界模型像一个有“内心地图”和“预演能力”的探险家,能真正行动并生存。

我们有理由相信,世界模型推动AI发展范式转变而带来的商业前景,将极为广阔。正如马斯克关于“AI与机器人满足人类一切欲望”的预言,因世界模型而变得可及。

而资本市场与产业界的行动投票也证明这一点:李飞飞World Labs和杨立昆AMI Labs均获超10亿美元融资,NVIDIA、Tesla深度布局,国内车企加速跟进,资本市场已将世界模型视为后LLM时代主赛道。

和而不同:生成派VS表征派

落地到实践层面看,当前世界模型领域呈现鲜明的技术流派竞争,以李飞飞和杨立昆为代表的两大路线尤为瞩目。

AI教母李飞飞博士创立的World Labs走生成路线,首个商用产品Marble能从一句话、一张图或视频生成高保真、可漫游、可编辑的3D世界。这些世界具备真实几何结构、物理属性,支持交互编辑和大规模构建。而Marble强调的空间智能与物理一致性,特别适合内容创作、虚拟生产、游戏开发和可视化模拟。腾讯混元、阿里等国内项目也聚焦类似方向,在前端可视化和资产生成上展现潜力。

商业化落地快的特征,使得生成路线在娱乐和设计领域更快看到明确的变现路径,这说明生成路线直击“创造世界”的痛点,极大降低了3D内容门槛,但长程规划有时仍需后处理优化的弊端也十分明显。

另一方面,杨立昆创立的AMI Labs则强调表征路线。不同于Marble的空间生成,基于JEPA架构理念的技术路线不追求像素生成,更强调在潜在空间学习抽象表示,如同人类的心智模型,擅长直觉预测,如同人看到玻璃杯即将倾倒,会预测水撒出甚至摔地破碎,应该及时决策扶住并阻止等。

很明显,表征路线更接近人类“脑中模拟”的本质,尤其适合机器人规划、智能驾驶等场景。

汽车成为世界模型产业实践的热土

事实上,汽车行业是世界模型落地最快的领域。

如Tesla Neural World Simulator利用海量数据实现高效闭环,国内蔚来NWM世界模型早在2024年推出,能全量理解信息、生成新场景、预测轨迹,在主动安全、领航、泊车等场景升级,支持人机共驾。

在刚刚闭幕的2026北京车展上,物理AI、世界模型成为全场关键词,也是更加贴切的产业印证。

展会上,小鹏以“物理AI科技公司”身份亮相,展出IRON人形机器人和Robotaxi原型车,宣布投入70亿元研发物理AI;吉利发布原生Robotaxi Eva Cab,搭载WAM世界动作模型,支持L4级无人运营;轻舟智航推出基于“世界模型+强化学习”的乘风MAX方案,算力超500TOPS,实现城市NOA;华为ADS 5.0引入多智能体+云端世界模型;Momenta R7强化学习世界模型等也在多款车型落地。人形机器人布局火热,小鹏、理想、小米、奇瑞等均有实质进展......

从新势力到传统车企,从整车到供应链,几乎人人都在谈如何让AI进入物理世界,而世界模型作为物理AI的“大脑”核心,重要性不言而喻。单纯依赖LLM已不足以应对物理世界的复杂性,世界模型+强化学习成为从感知到决策闭环的关键。

这一共识的形成远早于众人预期,反映出车企在智能化下半场的战略敏锐度。供应链话语权提升,宁德时代、地平线等与整车同台,也预示产业生态重构。车展上的密集落地,也为全球提供了中国样本——数据优势、工程能力与资本结合,正加速技术从实验室走向量产,同时也说明世界模型是克服LLM局限的必由之路。

产业界的观点是,2026或将是世界模型大爆发的元年,世界模型的成熟周期将快于预期。

尽管世界模型的发展面临物理一致性、长程规划、数据安全等挑战,但合成数据技术、强化学习闭环和多方协同正快速破局。值得一提的是,NVIDIA Cosmos平台在基础设施层面发挥关键作用,其Predict、Transfer、Reason等模型家族生成定制合成数据,大幅降低真实数据采集成本,支持物理一致性训练,已成为机器人和自动驾驶的训练底座。NVIDIA的平台策略着实聪明,将基础设施开放与生态绑定,加速全行业进步。

世界模型不再是营销口号,而是定义下一代竞争力的核心,而真正的智能始于世界而非语言这一理念正被越来越多的实践验证。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

App内直接打开
商务、渠道、广告合作/招聘立即咨询

相关文章

冷链跟踪和监控设备行业数据、细分市场及主要企业市占率分析报告

贝哲斯咨询 · 4分钟前

cover_pic

中国飞机传送带装载机市场发展状况及龙头企业营收数据分析报告(2026)

贝哲斯咨询 · 4分钟前

cover_pic

2026年可生物吸收的植入物市场发展现状与竞争格局分析报告

贝哲斯咨询 · 5分钟前

cover_pic
我也说两句