[总结][论文笔记] World model世界模型综述
前言(非文章内容)
参考https://www.bilibili.com/video/BV16Us3z1Eed/?spm_id_from=333.337.search-card.all.click
世界模型是AI模型对于外部世界的内部表征或者模拟,让AI能理解,预测,推理现实世界的运作方式,包括物理规律,因果关系,物体运动。
那么一般包含的核心能力:
- 内部表征:将高维数据(多模态)编码为低维的潜在状态
- 未来预测:基于当前状态和采取的行动,预测未来的状态变化
- 因果推理:理解如果。。。就会。。。,进行反事实推理
参考综述:https://arxiv.org/pdf/2411.14499
仿真派
强调从现实出发,建模世界规律,包括NVIDIA,xAI,自动驾驶阵营,具身智能等,用仿真平台重建现实,强调真实世界物理一致性
世界中,模型是显式的,确定性强,可靠
但没有办法应对复杂,未建模的世界
从数学角度看,就是从物理方程,偏微分方程描述连续世界,精确模拟,强调因果和能量守恒
参考综述:https://arxiv.org/pdf/2507.00917
GAIA-2:https://arxiv.org/pdf/2503.20523
RoboDreamer:https://arxiv.org/pdf/2404.12377
生成派
不显式应用物理规律,能从海量数据中学习到时空分布规律,由此隐式地被学出来,即学到视觉分布,典型就是OpenAI,Google Genie,视频生成阵营
好处就是逼真,通用,数据驱动
但不一定理解为什么,容易Out of Distribution
Movie Gen:https://arxiv.org/pdf/2410.13720
Dreamer:https://arxiv.org/pdf/1912.01603
Genie:https://arxiv.org/pdf/2402.15391
从数学角度看,就是学习概率分布,用统计分布,马尔可夫过程,扩散过程等
认知派
先构建一个可解释的世界结构,然后通过学习丰富和理解,典型就是李飞飞空间之内团队,Meta(Ego4D,Habitat),不追求物理精度,也不满足AI推演世界,更像从人的角度理解世界,因果结构,算半显式,半隐式
从经验学习潜在因果结构,可解释性强,稳健,能迁移
但构建难,效率低,泛化难
JEPA:https://arxiv.org/pdf/2301.08243,https://arxiv.org/pdf/2404.08471
从数学上看,将世界抽象成图结构,在其上进行语义,空间,因果关系的推理,即关系世界
现在技术的关系
Agent
更像是三派统一的尝试,重建了物理规律,在交互中形成语义和因果结构,通过经验更新自己的预测分布
参考论证:https://arxiv.org/pdf/2506.01622
强化学习
更像一种范式,一种方法,本质在于说interaction
信息
Title: Understanding World or Predicting Future? A Comprehensive Survey of World Models
Author: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, Zefang Zong, Jie Feng, Yuan Yuan, Hongyuan Su, Nian Li, Nicholas Sukiennik, Fengli Xu, Yong Li
Year: 2024
Publish: ACM CSUR
Organization: 北京国家信息科学技术研究中心,清华
Code: https://github.com/tsinghua-fib-lab/World-Model
Keyword: 综述,世界模型
定义
在世界模型的定义上,争论较多,但有两个特点是确定的:
- 理解世界:构造内部表征来理解世界的机理
- 预测未来:预知未来状态并且指导决策
同时,不同的流派对于世界模型的侧重不同,但可以大致分为两类:
- 内部表征:基于模型的强化学习,自监督学习(JEPA),LLM
- 未来预测:视频生成,3D环境交互
实际上,世界模型的各个流派也有自己的方向和方法

外部世界的隐式表征
主要是基于模型的强化学习和LLM的流派
方法分类
MBRL
在马尔可夫决策过程中,有,是状态空间,动作空间和衰减系数,和为状态转换动力学和奖励,一般被认为是世界模型
一般用state transition dynamics表示连续空间,state transition matirx表示离散空间,但都是同一作用
学习
由此,有几种方法学习,转换为类似监督学习的方式:
- 直接最小化每一步的均方误差:
- 另一种就是概率转移模型,最小化KL散度来实现:
生成
- 最直观的方法是模型预测控制(MPC),给定模型的情况下,预测一系列动作:
- 另一种就是蒙特卡洛树搜索(MCTS)
基于LLM的世界模型
一般使用LLM或者MLLM作为表征的backbone来引导决策
直接动作生成
基于对应的训练或者微调,LLM可以直接作为世界模型,通过语言来理解世界和生成动作
但决策的质量基本只取决于LLM本身的推理能力
LLM世界模型作为模块使用
使用LLM世界模型作为模块,然后使用其他基于模型或者有效规划算法来生成决策
模型学到的世界知识
作者认为包含三个方面:
- 全局物理世界的知识:包括空间,时间等(存在于一切场景的关系)
但尽管有研究表明LLM学到了相关知识,但有多好还是个问题
- 局部物理世界的知识:物体的空间关系等(只限定于当前场景的内容)
- 人类社会的知识:包括社会关系,规则,人类的思维等
物理世界的未来预测
未来预测有两个分支:视频生成和具身智能
视频生成
视频生成很大一点不同在于生成的是连续空间和时间的变化,并且,它需要通过处理过去的观测来预测未来的动作,和世界模型的定义类似
现有的视频生成模型已经比较强大,但其缺陷在于:
- 在完全理解和模拟外部世界上有困难,例如因果关系等
- 在一致性上有问题,例如物理规律等
视频世界模型应该具有以下能力:
- 长时间预测能力
- 多模态即成
- 交互能力
- 多样的环境
具身智能的世界模型
在具身智能领域,世界模型可以作为环境来训练agent,主要根据场景进行分类:
- 室内场景
- 室外场景(现阶段研究):由于大场景和多样性,有些聚焦于城市,
- 动态场景
应用
简单总结一些应用:
- 游戏智能
- 具身智能
- 城市中应用:自动驾驶,自动工业
- 社会智能:预测未来共同目标等
现有问题和未来方向
现在也存在一些问题:
- 物理规律和反事实模拟:
- 大规模的数据驱动是否能学到物理规律
- 有一些将物理显式嵌入的方法在出现
有研究表明,数据驱动更像是case-by-case解决,而非基于规律的,最简单的模型很难在分布外有良好的表现
- 丰富社会维度:现有模型无法从人的认知等方面预测推理
- 衡量标准:
- 现有的方法不统一:LLM agent,视频扩散
- 各种各样的应用场景,现有的侧重于视频世界模拟,物理空间模拟,具身决策等方面
- 由模拟到现实
- 模拟效率问题
- 道德和安全担忧:数据隐私,可靠性等
总结
总结来说,现有的世界模型还相对比较模糊,有多种技术路线,比较清晰的可能就是LLM+RL和Diffusion