「世界模型」的深刻革命

发表于 2025-11-07 分类于 AI & Systems 阅读次数： Waline：

「世界模型」在人工智能领域的革命性意义，从其基本概念、发展简史到前沿技术路径，全面解析了世界模型如何赋予AI对物理世界的理解与预测能力。文章还剖析了Sora、Genie、V-JEPA等代表性模型的技术差异与战略方向，并以特斯拉和小鹏为例，揭示世界模型在自动驾驶与具身智能中的关键作用，展望其对未来产品形态的深远影响。

在过去短短两三年间，我们几乎所有人都被 ChatGPT 的「超能力」所震撼。我们很快就习惯了人工智能在生活和工作中带来的便利，它能编写复杂的代码，能写邮件，或者构思文案，甚至遇事不决的时候也可以找他们讨论。

大语言模型，本质上是一个前所未有的符号处理器——它由词元（Tokens）构成，智能建立在对人类语言和知识的海量统计之上。

图像生成模型，则是一个强大的视觉翻译器——它通过逐步去噪将文字转化为画面，能力建立在对「描述与视觉」对应关系的海量学习之上。

然后，就在我们以为看清楚未来模型的发展都是基于文章或像素预测的时候，Sora 出现了。

因为这不再是语言游戏。

当我们看到 AI 生成的视频中，一群人在沙滩上打排球，人们的跑动姿势、排球的飞行轨迹、人物与球之间的互动、乃至沙子被踩踏后扬起的尘土，都无比符合我们对物理世界的直觉时，我们会分不清这是真实还是虚幻的。

因为这个模型是对物理世界的真正理解。

今天我们讨论的就是 「世界模型」（World Models）。如果说 LLM 给了 AI 一张嘴，那么世界模型，则是在试图赋予它一个能够理解、预测、并最终与之互动的「大脑」。

什么是「世界模型」

要理解这场变革的深刻性，我们必须首先厘清一个最基本的问题：到底什么是「世界模型」？

1.1 AI 的「物理引擎」

用一个最直观的类比：世界模型，是 AI 在自己「脑中」为真实世界构建的一个内在的、可预测的模拟器。

可以将其想象为 AI 专属的「物理引擎」或「沙盒游戏」。

就像游戏开发者使用虚幻引擎（Unreal Engine）来设定游戏世界中的重力、光照、流体动力学和碰撞规则一样，AI 通过观察海量的视频、图像和互动数据，自己学习并构建了一套关于我们这个世界如何运作的内在规则。

这些规则，就是我们所谓的「常识」，它们包含了：

物理常识： 比如，球会往下掉（重力），水会往低处流（流体），一个物体不能同时在两个地方（排他性）。
因果关系： 比如，推倒第一块多米诺骨牌，后面的会跟着倒下；按下开关，灯会亮起。
对象持久性： 一个物体被遮挡后，它依然存在，并不会凭空消失。
社会动态： 比如，在十字路口，行人看到红灯会停下；一个人微笑，通常表示友好。

AI 学习这些，是为了一个在 LLM 时代被相对忽视、却在物理世界中至关重要的核心目的：预测（Prediction）。

世界模型必须能够「想象」出，如果在一个特定状态下，执行某个动作，世界接下来会变成什么样。

这种「在脑中预演」的能力，正是我们人类智能的基石之一。当一个棒球手准备击球时，他必须在零点几秒内预测球的轨迹；当我们在拥挤的十字路口开车时，我们无时无刻不在预测其他车辆和行人的意图与动向。

1.2 模型公式

大型语言模型（LLM）的核心功能，可以被一个简洁的公式概括：$P(t’ | t)$

给定一系列已经发生的词元（token, $t$），预测下一个最有可能出现的词元（$t’$）的概率分布。

LLM 的智能，本质上是一种基于海量文本统计的「语言游戏」。它通过学习所有的文字，学会了「引力」这个词后面很可能跟着「是牛顿发现的」，或者「是一种基本力」。但它并不真正「理解」一个苹果为什么会从树上掉下来，它只是知道在人类的语料库中，这些词汇经常一起出现。

现在，我们来看世界模型（World Model）的核心功能。其基本任务可以用一个同样简洁但内涵截然不同的公式来概括：$P(s’ | s, a)$

在给定当前世界的状态（state, $s$）和一个被提议的行动（action, $a$）的条件下，预测世界下一个可能的状态（next state, $s’$）的概率分布。

这个简单的公式转变，是 AI 从「语言处理」迈向「现实理解」的巨大鸿沟。

特征	大语言模型 (LLM)	世界模型 (World Model)
核心目标	预测序列中的下一个词元 (Token)	预测系统中的下一个状态 (State)
核心能力	语言与符号处理	因果与动态模拟
知识来源	海量文本数据中的统计规律	对环境运作方式的内在物理模型
数据形态	离散的文本序列 (1 D)	高维的、连续的感知数据 (如视频 3 D/4 D)
存在意义	实现大规模的人机语言交互	实现基于模拟的推理、规划与行动

1.3 符号接地问题

“ 符号接地问题 “（Symbol Grounding Problem），由认知科学家 Searle Harnad 在 1990 年正式提出。

LLM 的所有知识都来自于文本符号，它的「智能」漂浮在符号的海洋中，无法与物理现实「接地」

纯符号系统（如 LLM）只能在符号与符号之间建立关联
这些符号本身缺乏与真实世界的直接联系

LLM 知道「红色」和「绿色」是反义词，但它「看」不到真实的红色；它知道「重」和「轻」的区别，但它「感受」不到 10 公斤的哑铃和 1 公斤的羽毛在物理上的差异。

这导致了 LLM 两个无法回避的局限：

它无法真正理解因果： 它知道「下雨」和「地湿」强相关，但它无法推断出是「下雨」导致了「地湿」，而不是相反。
它无法进行鲁棒的规划： 你可以要求 LLM 写一个「如何烤蛋糕」的计划，它会给你一个完美的文本步骤。它只是一个理论大师，但是没有实操经验。

而世界模型，恰恰就是为了解决这个「符号接地问题」而生的。一个拥有世界模型的 AI 智能体，可以像一个战略家一样，在自己的「脑内沙盘」上推演成千上万种可能性：

「如果我向左变道，那辆白色 SUV 会减速吗？」
「如果我先加这个配料，再升高温度，最终的化学反应会是怎样的？」

这被普遍认为是通往通用人工智能（AGI）的关键一步，也是构建真正自主的机器人和自动驾驶汽车的必要前提。

第二部分：世界模型的发展简史

2.1 早期雏形：「微观世界」

早在 20 世纪 60 年代，AI 的先驱们就意识到，要让机器变得智能，就必须让它理解它所处的世界。当时，研究者们（如 Marvin Minsky）尝试通过构建高度简化的「微观世界」（Micro-worlds）来让 AI 理解物理规则和执行任务。

他们尝试「手动」为 AI 打造一个极简的虚拟世界，就像搭积木。
程序员必须写死每一条规则，比如：

「规则 1：积木不能穿墙。」
「规则 2：金字塔顶上不能再放东西。」

然而，这些早期模型很快就撞上了「南墙」。它们无法扩展到更复杂的现实场景。现实世界不是由几个积木构成的，它的规则无限复杂、充满噪声和不确定性。这种「手工打造」模型的路线被证明是条死胡同。

2.2「昆虫模式」反射逻辑

到了 20 世纪 80 年代，随着「微观世界」的失败。布鲁克斯在 1986 年的论文《一个没有符号表征的智能生物》中，提出了著名的「包摄架构」（Subsumption Architecture）。他的核心观点是：「世界是其自身最佳的模型」（The world is its own best model）。

布鲁克斯反向思考：我们为什么非要 AI 有个「大脑」呢？他们认为 AI 应该像昆虫一样，靠「本能」活。比如：「遇到障碍就左转」，「看到暗处就前进」。这种「只靠反射」的逻辑在机器人领域流行了很久。

这种思想主导了机器人领域几十年，它强调从「自下而上」的简单反射中涌现出智能。在那个算力极其有限的时代，这无疑是更务实的选择。因此，「世界模型」这种「自上而下」的、需要庞大计算资源的宏大构想，被暂时打入了冷宫。

2.3 梦中训练

世界模型的「现代史」真正开启，要归功于 2018 年 David Ha 和 Jürgen Schmidhuber 发表的开创性论文——《World Models》。《World Models》这篇论文更具里程碑意义的贡献在于，它证明了一个惊人的结论：智能体甚至可以完全在其世界模型生成的「幻觉」或「梦境」中进行训练。

我们不再「手动」教 AI 规则，而是让 AI 自己去看、自己去学！
*核心突破： AI 被分成了两部分：一个「模拟器」（世界模型）和一个「驾驶员」（控制器）。

我们先让「模拟器」看海量的游戏视频，直到它能在脑中「梦」出一个真实的游戏世界。
然后，我们关掉真实游戏，让「驾驶员」在「模拟器」的梦境中，以超万倍的速度疯狂练习。
在「梦里」练成高手的 AI，回到真实游戏中，表现出色！

这个「在梦中学习」的范式，彻底点燃了学术界和工业界对学习型世界模型的兴趣。

2.4 现状：模拟「物理规律」

从 2018 年到 2024 年，世界模型的研究和应用呈现出爆发式增长，并与 AI 领域最前沿的几大趋势深度融合：

多模态与视频生成驱动： 以 OpenAI Sora 为代表的大型视频生成模型的出现，极大地推动了世界模型的发展。这些模型通过对海量视频数据的无监督或自监督学习，展现出对物理规律（重力、遮挡、流体）的初步理解。它们被视作「通用物理世界模拟器」的雏形。2024 年，AI 在生成高质量、长时序视频方面取得的重大进展，为构建更逼真的世界模型提供了前所未有的技术基础。
在具身智能领域的深化应用： 自动驾驶和机器人技术成为世界模型应用最活跃、最迫切的领域。2024 年涌现了大量针对自动驾驶的研究，如 DriveDreamer、OccWorld 等，它们致力于构建能够高精度预测交通场景演化的驾驶世界模型，以实现更安全、更智能的规划和决策。Waymo 和百度的自动驾驶出租车队在 2023-2024 年已提供大量商业化服务，这标志着基于世界模型的自主系统正从实验室走向现实。
成为 AI 智能体（Agentic AI）的核心引擎： 随着行业焦点从「模型」转向「代理」（Agent），世界模型被普遍认为是实现真正自主智能体的关键。无论是软件 Agent 还是物理 Agent，它们都需要利用内部世界模型进行「思考」和「规划」，模拟不同行动序列的后果，从而选择最佳方案以达成复杂目标。

第三部分：三大前沿路径——深入剖析 Sora、Genie 与 V-JEPA

当前，业界对世界模型的探索主要沿着三条截然不同、但同样雄心勃勃的路径展开。以 OpenAI 的 Sora、Google DeepMind 的 Genie 和 Meta AI 的 V-JEPA 为代表，它们不仅是技术架构上的巨大差异，更体现了三家巨头迥异的产品哲学、商业战略和对 AGI 终局的押注。

3.1 OpenAI 的 Sora：「世界模拟器」及其商业化路径

Sora 的出现，是世界模型概念第一次「出圈」并引发全球轰动的标志性事件。它让公众直观地看到了一个强大的世界模型「看起来」是什么样子。

技术路径： Sora 采用了一种生成式的、「规模优先」（Scaling-First）的策略。其核心是扩散型变换器 (Diffusion Transformer, DiT) 架构。通过在海量的、不同时长、不同分辨率和不同宽高比的视频数据（即「Patches」）上进行训练，Sora 学习到了一个隐性的物理世界模型。
何为「隐性」？ OpenAI 并没有「教」Sora 什么是重力或遮挡。Sora 对物理规律的理解，是通过对视频数据进行极致压缩后涌现出的能力。为了能够以最高效率压缩并重建视频，模型「被迫」去理解视频背后最本质的规律——即物理规则和因果关系。如果它不懂重力，它就无法准确预测抛出的球的轨迹，压缩和重建的成本就会非常高。

3.2 Google 的 Genie：「可玩世界」的无监督革命

如果说 Sora 是一个「电影放映机」，那么 Google DeepMind 在 2024 年初发布的 Genie，就是一个「游戏生成器」。它代表了世界模型的第二条重要路径，其技术野心甚至比 Sora 更大。

技术路径： Genie 是一种范式转换模型。它能从海量的、无标注的互联网视频（例如 8 年的 2 D 平台游戏录屏，总计 20 万小时）中，学习生成一个可交互、可控制的环境。
核心创新： Genie 最大的革命性在于其隐性动作模型 (Latent Action Model, LAM)。在训练数据中，没有人告诉 Genie 游戏手柄上的「上、下、左、右」按钮对应着视频中的什么动作。Genie 通过自监督学习，自动推断出了一组一致的、潜在的动作集（$a$）。它自己「搞明白」了，原来这个像素小人有「向左跳」、「向右走」、「发射子弹」等几个基本动作。

3.3 Meta 的 V-JEPA：通往「物理常识」的非生成式路径

Meta AI，在 AI 教父之一的 Yann LeCun 的指引下，正在走一条截然不同、甚至有些「异端」的道路。V-JEPA (视频联合嵌入预测架构) 是这种哲学的集中体现。

技术路径： V-JEPA 是一个**非生成式（Non-Generative）、自监督（Self-Supervised）**的模型。这是它与 Sora 和 Genie 最大的区别。
什么叫「非生成式」？ V-JEPA 的目标不是去生成像素级的、逼真的视频。LeCun 认为，生成每一个像素（比如天空中飘过的云、树叶的沙沙声）是极其浪费计算资源的，因为这些细节往往是不可预测的。
V-JEPA 做什么？ 它在一个抽象的潜在空间中学习预测。它会先通过编码器将视频帧压缩成抽象表征，然后故意「遮住」视频的某一部分（无论在空间上还是时间上），再训练模型去预测被遮住部分的抽象表征，而不是预测它的原始像素。
专注「可预测」的动态： 这种方法迫使模型专注于理解世界上可预测的动态（比如物体的运动轨迹、人的姿态），而忽略那些不可预测的细节（如水面的波光、火焰的闪烁）。LeCun 认为，这才是智能（尤其是物理常识）的本质。这种方法的计算效率极高。

第四部分：世界模型的终极战场——特斯拉的 AI 转型

在 2025 年 10 月 22 日的 Q 3 财报电话会议上，CEO 埃隆·马斯克几乎没有提及传统的汽车销售业务、交付量或利润率。相反，他将整场会议变成了一场关于 AI 的「布道」。他将特斯拉重新定位为 「现实世界 AI 的领导者」。

马斯克强调，特斯拉正处于一个关键拐点，其核心任务是将 AI 带入物理世界，通过自动驾驶（FSD）、Robotaxi（自动驾驶出租车）和人形机器人 Optimus（擎天柱）等技术，实现「可持续富足」的愿景。

这不仅仅是商业策略的转变，更是特斯拉对「世界模型」——一种 AI 对物理环境进行模拟、预测和互动的核心能力——的 All-in 式深度投资。在特斯拉的生态中，世界模型是连接车辆、机器人、软件和能源系统的「中枢神经系统」，它正在推动公司从一家电动汽车制造商，向一家真正意义上的 AI 巨头演变。

4.1 FSD：在现实中运行的世界模型

世界模型在 AI 领域指代系统对环境的内部表示，用于模拟物理动态、预测结果并优化行动。在特斯拉，Full Self-Driving (FSD) 软件就是这一模型的最佳体现。

马斯克在会议中反复强调，特斯拉拥有「所有 AI 中最高的智能密度」，这得益于其在「现实世界 AI」上的无可比拟的数据积累：数百万辆汽车已累计行驶超过 60 亿英里（数据来自笔记，可能需更新，但核心逻辑不变），这些真实世界的驾驶数据，被用来训练一个能「像生物一样思考」的系统。

4.2 Robotaxi：世界模型的服务化

如果 FSD 是世界模型的「算法本体」，那么 Robotaxi 就是其落地的、最直接的「商业化产物」。

马斯克宣布，2025 年底，特斯拉将在奥斯汀大部分地区移除安全驾驶员，实现真正的无监督运营。同时，服务将扩展至 8-10 个新的都市区。

4.3 Optimus：世界模型的终极「具身」

如果说 FSD 和 Robotaxi 是让世界模型在「轮子」上运行，那么 Optimus（擎天柱）人形机器人，则是特斯拉世界模型的巅峰应用和终极「具身」（Embodiment）。

Optimus 的愿景是，它将像外科医生一样精准，像工人一样强壮，能够提供最佳的医疗服务，或在工厂 24/7 运行，实现马斯克所谓的「可持续富足」。Optimus 已经在帕洛阿尔托的办公室 24/7 自主运行，能引导客人、分拣物品，这证明了模型已经从车辆的模拟，走向了更泛化的物理现实。

从 FSD 到 Robotaxi，再到 Optimus，特斯拉的战略清晰无比：用海量的真实世界数据，喂养一个统一的世界模型；再将这个模型封装在不同的硬件（汽车、机器人）中，去执行物理世界的任务，以此重塑交通、劳动力和人类生活本身。

第五部分：不得不提一下小鹏

小鹏汽车的战略并非孤立地开发 AI 汽车、AI 机器人和飞行汽车，而是倾注资源构建一个统一的「物理世界基座模型」。该模型被定位为其所有「具身智能终端」的「AI 大脑」。

在世界模型重塑物理 AI 的浪潮中，小鹏汽车展示了其独特的战略布局。

小鹏汽车正在研发一个超大规模的自动驾驶大模型，内部称为「小鹏世界基座模型」(XPeng World Base Model) 。

该模型的核心规格和架构特点极为引人注目：

参数规模：参数量高达720 亿 (72 B) 。
核心架构：这是一个「以大语言模型（LLM）为骨干网络」的多模态大模型 。
关键能力：该模型具备强大的「长思维链推理能力 (CoT)」，以及完整的「视觉理解能力、链式推理能力和动作生成能力」。

第五部分：产品新变革

我们现在的产品绝大多数都是基于图形用户界面（GUI）的。特别是淘系的 C 端产品的核心价值是：「通过优化交互让用户更加高效的完成任务。」

但世界模型驱动下，可能会在我们的产品之上，创造一个全新的、更高维度的交互层。

电商： 用户不再需要「逛」淘宝。他可能只需要对他的 AI 助手说：「帮我规划一个最适合我客厅的家庭影院方案，预算 2 万元，我偏爱温暖的音色，下周末前要装好。」

AI 代理会立刻利用世界模型，在内部模拟和评估数千种品牌、型号、布局的组合，甚至模拟出不同方案在用户客厅中的声场效果和视觉效果。最后，它直接给用户一个最优方案的视频或交互式场景，并附带一个「一键购买并预约安装」的按钮。
在这个过程中，我们精心设计的筛选器、排序算法、商品详情页、推荐列表……可能被「绕过」了。

我们不再构建传统的 GUI。产品的核心产品，就是那个 agent 本身。