前言(非文章内容)

参考https://www.bilibili.com/video/BV16Us3z1Eed/?spm_id_from=333.337.search-card.all.click

世界模型是AI模型对于外部世界的内部表征或者模拟,让AI能理解预测推理现实世界的运作方式,包括物理规律因果关系物体运动

那么一般包含的核心能力:

  • 内部表征:将高维数据(多模态)编码为低维的潜在状态
  • 未来预测:基于当前状态和采取的行动,预测未来的状态变化
  • 因果推理:理解如果。。。就会。。。,进行反事实推理

参考综述:https://arxiv.org/pdf/2411.14499

仿真派

强调从现实出发,建模世界规律,包括NVIDIA,xAI,自动驾驶阵营,具身智能等,用仿真平台重建现实,强调真实世界物理一致性

世界中,模型是显式的,确定性强,可靠

但没有办法应对复杂,未建模的世界

从数学角度看,就是从物理方程,偏微分方程描述连续世界,精确模拟,强调因果和能量守恒

参考综述:https://arxiv.org/pdf/2507.00917

GAIA-2:https://arxiv.org/pdf/2503.20523

RoboDreamer:https://arxiv.org/pdf/2404.12377

生成派

不显式应用物理规律,能从海量数据中学习到时空分布规律,由此隐式地被学出来,即学到视觉分布p(x1 text )\mathrm{p}\left(\mathrm{x}_1 \mid \text { text }\right),典型就是OpenAI,Google Genie,视频生成阵营

好处就是逼真,通用,数据驱动

但不一定理解为什么,容易Out of Distribution

Movie Gen:https://arxiv.org/pdf/2410.13720

Dreamer:https://arxiv.org/pdf/1912.01603

Genie:https://arxiv.org/pdf/2402.15391

从数学角度看,就是学习概率分布,用统计分布,马尔可夫过程,扩散过程等

认知派

先构建一个可解释的世界结构,然后通过学习丰富和理解,典型就是李飞飞空间之内团队,Meta(Ego4D,Habitat),不追求物理精度,也不满足AI推演世界,更像从人的角度理解世界,因果结构,算半显式,半隐式

从经验学习潜在因果结构,可解释性强,稳健,能迁移

但构建难,效率低,泛化难

JEPA:https://arxiv.org/pdf/2301.08243https://arxiv.org/pdf/2404.08471
从数学上看,将世界抽象成图结构,在其上进行语义,空间,因果关系的推理,即关系世界

现在技术的关系

Agent

更像是三派统一的尝试,重建了物理规律,在交互中形成语义和因果结构,通过经验更新自己的预测分布

参考论证:https://arxiv.org/pdf/2506.01622

强化学习

更像一种范式,一种方法,本质在于说interaction

信息

Title: Understanding World or Predicting Future? A Comprehensive Survey of World Models

Author: Jingtao DingYunke ZhangYu ShangYuheng ZhangZefang ZongJie FengYuan YuanHongyuan SuNian LiNicholas SukiennikFengli XuYong Li

Year: 2024

Publish: ACM CSUR

Organization: 北京国家信息科学技术研究中心,清华

Code: https://github.com/tsinghua-fib-lab/World-Model

Keyword: 综述,世界模型

定义

在世界模型的定义上,争论较多,但有两个特点是确定的:

  • 理解世界:构造内部表征来理解世界的机理
  • 预测未来:预知未来状态并且指导决策

同时,不同的流派对于世界模型的侧重不同,但可以大致分为两类:

  • 内部表征:基于模型的强化学习,自监督学习(JEPA),LLM
  • 未来预测:视频生成,3D环境交互

实际上,世界模型的各个流派也有自己的方向和方法

外部世界的隐式表征

主要是基于模型的强化学习和LLM的流派

方法分类

MBRL

在马尔可夫决策过程中,有(S,A,M,R,γ)(S, A, M, R, \gamma)S,A,γS, A, \gamma是状态空间,动作空间和衰减系数,MMRR为状态转换动力学和奖励,一般被认为是世界模型

一般用state transition dynamics表示连续空间,state transition matirx表示离散空间,但都是同一作用

学习

由此,有几种方法学习,转换为类似监督学习的方式:

  • 直接最小化每一步的均方误差:

minθEsM(s,a)[sMθ(s,a)22]\min _\theta \mathbb{E}_{s^{\prime} \sim M^*(\cdot \mid s, a)}\left[\left\|s^{\prime}-M_\theta(s, a)\right\|_2^2\right]

  • 另一种就是概率转移模型,最小化KL散度来实现:

minθEsM(s,a)[log(M(ss,a)Mθ(ss,a))]\min _\theta \mathbb{E}_{s^{\prime} \sim M *(\cdot \mid s, a)}\left[\log \left(\frac{M^*\left(s^{\prime} \mid s, a\right)}{M_\theta\left(s^{\prime} \mid s, a\right)}\right)\right]

生成

  • 最直观的方法是模型预测控制(MPC),给定模型的情况下,预测一系列动作:

maxat:t+τEst+1p(st+1st,at)[t=tt+τr(st,at)]\max _{a_{t: t+\tau}} \mathbb{E}_{s_{t^{\prime}+1} \sim p\left(s_{t^{\prime}+1} \mid s_{t^{\prime}}, a_{t^{\prime}}\right)}\left[\sum_{t^{\prime}=t}^{t+\tau} r\left(s_{t^{\prime}}, a_{t^{\prime}}\right)\right]

  • 另一种就是蒙特卡洛树搜索(MCTS)

基于LLM的世界模型

一般使用LLM或者MLLM作为表征的backbone来引导决策

直接动作生成

基于对应的训练或者微调,LLM可以直接作为世界模型,通过语言来理解世界和生成动作

但决策的质量基本只取决于LLM本身的推理能力

LLM世界模型作为模块使用

使用LLM世界模型作为模块,然后使用其他基于模型或者有效规划算法来生成决策

模型学到的世界知识

作者认为包含三个方面:

  • 全局物理世界的知识:包括空间,时间等(存在于一切场景的关系)

但尽管有研究表明LLM学到了相关知识,但有多好还是个问题

  • 局部物理世界的知识:物体的空间关系等(只限定于当前场景的内容)
  • 人类社会的知识:包括社会关系,规则,人类的思维等

物理世界的未来预测

未来预测有两个分支:视频生成和具身智能

视频生成

视频生成很大一点不同在于生成的是连续空间和时间的变化,并且,它需要通过处理过去的观测来预测未来的动作,和世界模型的定义类似

现有的视频生成模型已经比较强大,但其缺陷在于:

  • 在完全理解和模拟外部世界上有困难,例如因果关系等
  • 在一致性上有问题,例如物理规律等

视频世界模型应该具有以下能力:

  • 长时间预测能力
  • 多模态即成
  • 交互能力
  • 多样的环境

具身智能的世界模型

在具身智能领域,世界模型可以作为环境来训练agent,主要根据场景进行分类:

  • 室内场景
  • 室外场景(现阶段研究):由于大场景和多样性,有些聚焦于城市,
  • 动态场景

应用

简单总结一些应用:

  • 游戏智能
  • 具身智能
  • 城市中应用:自动驾驶,自动工业
  • 社会智能:预测未来共同目标等

现有问题和未来方向

现在也存在一些问题:

  • 物理规律和反事实模拟:
    • 大规模的数据驱动是否能学到物理规律
    • 有一些将物理显式嵌入的方法在出现

有研究表明,数据驱动更像是case-by-case解决,而非基于规律的,最简单的模型很难在分布外有良好的表现

  • 丰富社会维度:现有模型无法从人的认知等方面预测推理
  • 衡量标准:
    • 现有的方法不统一:LLM agent,视频扩散
    • 各种各样的应用场景,现有的侧重于视频世界模拟,物理空间模拟,具身决策等方面
  • 由模拟到现实
  • 模拟效率问题
  • 道德和安全担忧:数据隐私,可靠性等

总结

总结来说,现有的世界模型还相对比较模糊,有多种技术路线,比较清晰的可能就是LLM+RL和Diffusion