![]()
拉斯维加斯游戏官网人类学★★◈★ღ,拉斯维加斯游戏官方网站★★◈★ღ!这一问题严重制约了视频生成技术在游戏★★◈★ღ、自动驾驶★★◈★ღ、具身智能等下游应用的落地破了语文课代表的那层膜★★◈★ღ。8 月初破了语文课代表的那层膜★★◈★ღ,GoogleDeepMind 发布的 Genie 3 引爆 AI 圈★★◈★ღ,以其在长视频生成中依旧保持极强场景一致性的能力3499拉斯维加斯★★◈★ღ,被视为世界模型领域的质变之作★★◈★ღ。不过遗憾的是破了语文课代表的那层膜★★◈★ღ,
来自港大和快手可灵的研究团队近期发表的Context as Memory论文★★◈★ღ,可能是目前学术界效果上最接近 Genie 3 的工作★★◈★ღ,且投稿时间早于 Genie 3 的发布★★◈★ღ。早在此前研究中★★◈★ღ,团队就发现★★◈★ღ:视频生成模型能够隐式学习视频数据中的 3D 先验★★◈★ღ,无需显式 3D 建模辅助★★◈★ღ,这与 Genie 3 的理念不谋而合★★◈★ღ。如下是一个结果展示★★◈★ღ:
技术上★★◈★ღ,团队创新性地提出将历史生成的上下文作为「记忆」(即 Context-as-Memory)★★◈★ღ,利用 context learning 技术学习上下文条件★★◈★ღ,从而在整段长视频生成中实现前后场景一致性★★◈★ღ。
进一步地★★◈★ღ,为了高效利用理论上可无限延长的历史帧序列3499拉斯维加斯★★◈★ღ,论文提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval)★★◈★ღ,从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件3499拉斯维加斯★★◈★ღ,大幅提升视频生成的计算效率并降低训练成本★★◈★ღ。
在数据构建上破了语文课代表的那层膜★★◈★ღ,团队基于 Unreal Engine 5 收集了多样化场景★★◈★ღ、带有精确相机轨迹标注的长视频★★◈★ღ,用于充分训练和测试上述技术★★◈★ღ。用户只需提供一张初始图像★★◈★ღ,即可沿设定的相机轨迹自由探索生成的虚拟世界★★◈★ღ。
从上述视频可以观察到3499拉斯维加斯★★◈★ღ,Context as Memory 可以在几十秒的时间尺度下保持原视频中的静态场景记忆力★★◈★ღ,并在不同场景有较好的泛化性★★◈★ღ。
我们提出了 Context as Memory 方法★★◈★ღ,强调将历史生成的上下文作为记忆★★◈★ღ,无需显式 3D 建模即可实现场景一致的长视频生成★★◈★ღ。
为了高效利用历史上下文破了语文课代表的那层膜★★◈★ღ,我们设计了 Memory Retrieval 方法3499拉斯维加斯★★◈★ღ,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索★★◈★ღ,显著减少了需要学习的上下文数量★★◈★ღ,从而提高了模型训练与推理效率★★◈★ღ。
实验结果表明★★◈★ღ,Context as Memory 在长视频生成中的场景记忆力表现优越破了语文课代表的那层膜★★◈★ღ,显著超越了现有的 SOTA 方法★★◈★ღ,并且能够在未见过的开放域场景中保持记忆破了语文课代表的那层膜3499拉斯维加斯★★◈★ღ。
如上图(a)所示★★◈★ღ,Context-as-Memory 的长视频生成是通过基于 Context learning 的视频自回归生成来实现的★★◈★ღ,其中★★◈★ღ,所有历史生成的视频帧作为 context★★◈★ღ,它们被视为记忆力的载体★★◈★ღ。
进一步地★★◈★ღ,如上图(b)所示★★◈★ღ,为了避免将所有历史帧纳入计算所带来的过高计算开销★★◈★ღ,提出了 Memory Retrieval 模块★★◈★ღ。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系★★◈★ღ,从而动态筛选出与预测视频最相关的历史帧作为记忆条件★★◈★ღ。此方法显著减少了需要学习的上下文数量★★◈★ღ,大幅提高了模型训练和推理的效率★★◈★ღ。
在实验中★★◈★ღ,研究者将 Context-as-Memory 与最先进的方法进行了比较★★◈★ღ,结果表明★★◈★ღ,Context-as-Memory 在长视频生成的场景记忆力方面★★◈★ღ,相较于这些方法★★◈★ღ,表现出了显著的性能提升★★◈★ღ。
在本文中破了语文课代表的那层膜3499拉斯维加斯★★◈★ღ,研究者提出了 Context-as-Memory★★◈★ღ,一种能够实现静态场景记忆的交互式长视频生成模型★★◈★ღ。Context-as-Memory 的核心创新在于3499拉斯维加斯★★◈★ღ,提出了一种无需显式 3D 建模★★◈★ღ,仅通过对历史上下文学习★★◈★ღ,即可使视频生成模型具备 3D 一致性的理解与生成能力★★◈★ღ。此外★★◈★ღ,Memory Retrieval 模块的提出进一步减少了需要学习的上下文数量★★◈★ღ,大大提高了模型在训练和测试阶段的效率★★◈★ღ。
团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果★★◈★ღ。其中包括整理了交互式视频生成领域工作的综述论文和观点论文★★◈★ღ,系统性地总结了该领域的发展现状★★◈★ღ,还提出了世界模型的五大基础能力模块★★◈★ღ:Generation★★◈★ღ,Control★★◈★ღ,Memory★★◈★ღ,Dynamics 以及 Intelligence★★◈★ღ。这一框架为后续基础世界模型的研究指明了方向★★◈★ღ,具有很高的学习与参考价值★★◈★ღ。在该框架指导下★★◈★ღ,团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作★★◈★ღ,还在 ICCV 2025 上发表了 GameFactory 论文★★◈★ღ。GameFactory 聚焦于世界模型的可泛化开放域控制能力★★◈★ღ,能够生成无限可交互的新游戏★★◈★ღ,并被选为 Highlight 论文★★◈★ღ。