从直观物理学谈到认知科学，Sora不是传统物理模拟器盖棺定论了？

AI行业动态11个月前发布 ainavi

0 800

本文篇幅很长，主题很多，但循序渐进，对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。

最近，OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外，OpenAI 更是将 Sora 定义为一个「世界模拟器」（world simulators）。

当然，这一说法遭到了包括图灵奖得主 Yann LeCun 在内很多学者的反驳。LeCun 的观点是：仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

近日，澳大利亚麦考瑞大学的哲学助理教授 Raphaël Millière 撰写了一篇长文，深入探讨了 Sora 究竟是不是「世界模拟器」。

作者回顾了 Sora 的功能、工作原理以及它模拟 3D 场景属性的意义，讨论了认知科学中直观物理学文献、机器学习中「世界模型」的多义（多种解释）概念以及图像生成模型的可解释性研究。

结论是：Sora 并没有运行传统意义上的模拟，尽管它可能在更有限的意义上表现出了视觉场景的物理属性。但是，行为证据不足以充分评估 Sora 是世界模拟器这一说法。最后，作者对视频生成模型在未来 AI 和机器人学中的地位，以及它们与认知科学中正在进行的辩论之间的潜在相关性进行了预测。

本文主要内容包括如下：

引言
视频生成进展
Sora（可能的）工作原理
模拟假设
直观物理学
世界模型
再看 Sora
结论

机器之心对原文做了不改变原意的整理编译（以第一人称 zhankai）。

引言

今年 2 月 15 日，OpenAI 推出了 Sora，输入文本 prompts 来生成视频和图像。Sora 最长生成了 60 秒的短视频，不过该模型至今没有开放使用。在 Sora 技术报告中，OpenAI 将它称为「世界模拟器」，并解释了训练 Sora 的动机：

我们教 AI 理解和模拟运动中的物理世界，希望达成的目标是训练模型并让它们帮助人们解决需要真实世界交互的问题。

此外，OpenAI 对 Sora 理论意义的理解是这样的，「我们的结果表明，扩展视频生成模型对于构建物理世界的通用模拟器而言，是一条很有希望的发展路径。」

这些取自 OpenAI 博客和技术报告中的大胆言论，仅仅可以被看做是 PR 宣传，而不是学术论文，更不用说经过同行评议的研究了。当然，这不是我们第一次看到视频生成公司这样说了。比如视频生成领域顶级初创公司 Runway，它也有这样的声明：

所谓世界模型，即能够构建环境的内在表示并用它来模拟未来环境事件的 AI 系统。你可以将 Gen-2 等视频生成系统看作是非常早期和有限形式的通用世界模型。

除了 PR 之外，OpenAI、Runway 的这些言论提及了关于 SOTA 视频生成模型内在结构的真正有趣的问题。不过，像「世界模拟器」和「通用世界模型」这样的描述对于定义上述问题没有多大帮助。

因此，接下来，我将试图阐明这些神经网络拥有了模拟物理世界的内在模型到底意味着什么，以及我们是否有任何证据证明像 Sora 这类 AI 系统做到了如此。

视频生成领域进展

此前，视频生成技术实现了如下图所示的效果。这些短视频由名为 MoCoGAN-HD 的模型生成，出自 ICLR 2021 论文《A Good Image Generator Is What You Need for High-Resolution Video Synthesis》。作者将视频合成问题描述为在静态图像生成模型的潜在空间中发现轨迹，从而利用生成对抗网络中的解耦表示。