目的 世界模型的主要目的是,设计一个可以更新状态的神经网络模块、用来记忆和建模环境, 实现输入当前观测(图像、状态等)和即将采取的动作、根据模型对世界的记忆和理解、预测下一个可能得观测(图像、状态)和动作,并通过采取动作后, 下一时刻的实际观测和预测的观测之间的差异, 作为loss来自监督的训练模型 世界模型目前主要用来强化学习中, 作为模型类强化学习中的模型, 由于涉及到通过输入序列来记忆和建模世界环境, 因此需要使用序列模型, 目前有两种网络结构可以使用, LSTM和Transformers核心想法 记忆历史、学习经验、建模世界、预测未来 比如: 从物体下落的的视频中, 根据当前画面,预测下一帧画面, 从而学习真实世界的物理学规律当前深度学习模型的限制 没有长时间的持久化记忆,只能对当前一帧或几帧数据进行处理,无法有效保留长期和持久记忆 无论是视觉模型、语音模型还是大语言模型、都存在类似的问题
世界模型的优势 1)学习世界的精细表征和物理规律 以预测下一步图像作为监督、不仅可以让模型可以更细粒度的学习到世界的规律, 如物理学定律 2)而且可以构成自监督学习形式, 从而可以从大量人类视频中学习
对人类感知和机器人大模型的想法 根据最近看的GPT-4用于机器人导航、规划和控制,以及RT-1、RT-2机器人大模型实现方式和效果来看 或许目前这种以语言为中心的大模型设计, 并不适合需要和现实世界打交道的机器人 因为语言模型只是通过文字描述了解世界, 并未对世界有直接的观察和感受 从人类的感知、理解和动作来看, 人类只能和大语言模型有几处明显差异: 1) 人类以及其他生物在感知世界,并和环境交互上用的都不是语言, 而是视觉和听觉, 即使人类可以阅读文字, 也是通过视觉的方式从纸张、屏幕、墙壁等上写的字看到的, 而不是直接输入的,即人类实际上是没有直接向达到输入文字的能力的 2) 人类对外输出的也不是文字,而是声音和动作,人手可以写文字包含在输出的动作中。 3) 人类的视觉、听觉输入是连续的感知流, 即使人在看着一张静止的图片, 对眼睛和大脑来说, 也是以视觉流的方式在输入, 只不过输入的内容没变罢了 即人类只要开始感知, 就是视觉流和音频流连续不断的在输入, 没有只输入一帧的概念。 4) 人类在通过视觉、听觉感知到环境、并在思考后通过双脚和双手执行动作, 观察并预测环境的反应; 在这一过程中大脑是在不断预测未来, 并根据未来的实际观测校准自己的动作 即人类和环境的交互,是在时间流上, 不断执行观察–思考–预测–行动这一过程的 5) 除了视觉和听觉量大感知, 人类还有触觉、嗅觉以及对自身状态的感知, 不过相比于视觉和听觉,他们对人类智能的影响没有那么大视频-音频-动作大模型 从上述思考推断, 是否可以设计一个新的机器人大模型, 即视频-音频-动作大模型 输入主要是视频-音频,动作状态作为辅助; 输出是主要音频和动作, 视觉作为辅助用于预测未来和自监督训练。 因为实际上, 人类是不能直接对环境输出视频的, 只能想象未来的画面 鉴于人类闭上眼睛也可以听、捂住耳朵也可以看, 所以视频和音频应当即可以联合其作用, 也可以独立其作用, 所以在输入前需要由两个分离的模块先各自处理, 再结合。 对于文字输入, 可以通过将文字写在图片上, 以视频流的形式输入,或者转化为音频, 以音频流的方式输入,实际上人类自身也是这么工作的 对于文字输出, 可以转化为语音, 也可以转化为动作, 即控制手在纸上写字, 或敲击键盘输入计算机等 虽然人类可以流畅的通过语言交流, 但人类并不能像计算机或大语言模型一样, 直接向自己的大脑输入或输出字符串
NExT-GPT: Any-to-Any Multimodal LLM https://arxiv.org/abs/2309.05519 https://next-gpt.github.io/ https://github.com/NExT-GPT/NExT-GPT https://4271670c463565f1a4.gradio.live/
根据当前输入的文字、图片、视频、音频预测下一刻的对应的输出
世界模型目前主要由两个AI领导者提出和推动一个是LSTM的作者Schmidhuber,在很早就开始探索基于LSTM的强化学习和世界模型,也是后面很多世界模型的基础
World Models, David Ha 1 Jürgen Schmidhuber
World Models https://arxiv.org/abs/1803.10122 https://worldmodels.github.io/ David Ha 1 Jürgen Schmidhuber Recurrent World Models Facilitate Policy Evolution https://arxiv.org/abs/1809.01999 David Ha, Jürgen Schmidhuber One Big Net For Everything Schmidhuber, J., https://arxiv.org/abs/1802.08864 On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models [PDF] Schmidhuber, J., 2015. ArXiv preprint. http://arxiv.org/pdf/1511.09249.pdf Making the World Differentiable: On Using Self-Supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-Stationary Environments [PDF] Schmidhuber, J., 1990 http://people.idsia.ch/~juergen/FKI-126-90_(revised)bw_ocr.pdf Learning Complex, Extended Sequences Using the Principle of History Compression Schmidhuber, J., 1992. Neural Computation, Vol 4(2), pp. 234-242. Learning to Forget: Continual Prediction with LSTM [PDF] Gers, F., Schmidhuber, J. and Cummins, F., 2000. Neural Computation, Vol 12(10), pp. 2451—2471. ftp://ftp.idsia.ch/pub/juergen/FgGates-NC.pdf
另一个是Yann LeCun提出的JPEA架构A Path Towards Autonomous Machine Intelligence [2022]
A Path Towards Autonomous Machine Intelligence
Joint Embedding Predictive Architecture (JEPA)
其他相关论文
DreamerV3 Mastering Diverse Domains through World Models https://arxiv.org/abs/2301.04104 https://danijar.com/dreamerv3 https://danijar.com/project/dreamerv3/ World Model Learning Actor Critic Learning Figure 3: Training process of DreamerV3. The world model encodes sensory inputs into a discrete representation zt that is predicted by a sequence model with recurrent state ht given actions at. The inputs are reconstructed as learning signal to shape the representations. The actor and critic learn from trajectories of abstract representations predicted by the world model. RNN世界模型 输入当前世界模型的经典工作
DreamerV3架构DreamerV3模型实验效果
STORM STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning https://arxiv.org/abs/2310.09615 https://github.com/weipu-zhang/STORM 精度比DreamerV3、IRIS、TWM高 训练速度比DreamerV3、IRIS、TWM快
STORM架构STORM结果对比
Video Language Planning https://arxiv.org/abs/2310.10625 https://video-language-planning.github.io/ https://github.com/video-language-planning/vlp_code Vision-Language Models as Policies. Video Models as Dynamics Models. Vision-Language Models as Heuristic Functions. 预测未来视频
输入: VLP takes as input a long-horizon task instruction and current image observation, 输出: and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final tas 模型: Given the current image observation and a language instruction, the agent uses a VLM to infer high-level text actions, and a video model to predict the low-level outcomes of those action (i) prompting the VLM as a policy to generate multiple possible next-step text actions (ii) using the video model as a dynamics model to simulate multiple possible video rollouts for each action (iii) using the VLM again but as a heuristic function to assess the favorability of each rollout in contributing task progress, then recursively re-planning with (i).
dynalang Learning to Model the World with Language https://arxiv.org/abs/2308.01399 https://dynalang.github.io/ https://github.com/jlin816/dynalang Learning to Act by Latent Imagination This repo is adapted from DreamerV3. vision-language navigation 不需要环境先验信息和位置信息 语言部分并没有使用复杂的大语言模型, 而是使用的比较简单的语言模型, 只对特定的动作和句子做识别 不涉及大语言模型复杂的问答和理解 世界模型是一个LSTM 模型
Dynalang基本原理, 预测未来的视频、奖励和文本Dynalang架构
Hieros/S5WM: Hieros: Hierarchical Imagination on Structured State Space Sequence World Models https://arxiv.org/abs/2310.05167 https://github.com/Snagnar/Hieros This repository is based on the DreamerV3, DreamerV3 in pytorch and S5 in pytorch repositories.
Hieros架构
S5: S5: Simplified State Space Layers for Sequence Modeling https://arxiv.org/abs/2208.04933 https://github.com/lindermanlab/S5 https://github.com/i404788/s5-pytorch Pytorch implementation of Simplified Structured State-Spaces for Sequence Modeling (S5) S4WM Facing off World Model Backbones: RNNs, Transformers, and S4 https://arxiv.org/abs/2307.02064 https://fdeng18.github.io/s4wm In particular, we investigate the effectiveness of Transformers and Structured State Space Sequence (S4) models,S4: state space mode Structured State Space Discrete-time SSM: The Recurrent Representation https://arxiv.org/abs/2111.00396 Efficiently Modeling Long Sequences with Structured State Spaces
DreamerV2 Mastering Atari with Discrete World Models https://danijar.com/dreamerv2 https://github.com/danijar/dreamerv2 https://arxiv.org/abs/2010.02193 RNN世界模型
DreamerV2架构DreamerV2中的RSSM
RSSM Rrecurrent state space model (RSSM) (Hafner et al., 2022b) Learning latent dynamics for planning from pixels. 2022b. http://arxiv.org/abs/2010.02193
DreamerV1 Dream to Control: Learning Behaviors by Latent Imagination https://arxiv.org/abs/1912.01603
DreamerV1架构
SWIM Structured World Models from Human Videos https://arxiv.org/abs/2308.10901 https://human-world-model.github.io Mastering atari with discrete world models
训练世界模型,从人类视频中学习SWIM训练方法
iris Transformers are Sample Efficient World Models (IRIS) https://github.com/eloialonso/iris https://github.com/eloialonso/iris_agent https://github.com/eloialonso/iris_pretrained_models Transformers世界模型
iris架构iris
twm Transformer-based World Models Are Happy With 100k Interactions (ICLR 2023) https://github.com/jrobine/twm https://openreview.net/pdf?id=TdBaDGCpjly Transformers世界模型
twm
MWM Masked World Models for Visual Control https://arxiv.org/abs/2206.14244 https://sites.google.com/view/mwm-rl https://github.com/younggyoseo/MWM
MWM架构MWM示例
TransDreamer TransDreamer: Reinforcement learning with transformer world model http://arxiv.org/abs/2202.09481 Transformers世界模型