先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
在毫无预警地发布Sora和一大波AI视频Demo后,OpenAI又发表了题为"Video Generation Models as World Simulators"的研究报告,探讨在视频数据上进行大规模训练生成模型的路径。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
在这份揭秘Sora技术秘密的研究中,研究者们表示自己训练了文本条件扩散模型(text-conditional diffusion models)。这些模型能够处理不同时长(durations)、分辨率(resolutions)和宽高比(aspect ratios)的视频和图像。
并且,他们采用了基于变换器架构(transformer architecture)的模型。该模型在视频和图像的时空补丁(spacetime patches)上操作,最大的模型名为Sora,能够生成长达一分钟的高保真度视频(high fidelity video)。
研究结果还表明,扩展视频生成模型是构建物理世界通用模拟器(general purpose simulators)的一个有前景的路径。
以下是这份报告的主要内容、技术特点、训练过程和核心观点总结。
报告的主要内容
视觉数据的统一表示:研究者们将所有类型的视觉数据转化为统一的表示,以便于大规模训练生成模型。他们的方法包括将视频压缩到低维潜在空间(latent space),然后将其分解为时空补丁。
Sora模型:Sora是一个扩散模型(diffusion model)。在输入噪声补丁(noisy patches)和条件信息(如文本提示text prompts)的情况下,被训练来预测原始的“干净”补丁。Sora是一个扩散变换器(diffusion transformer),在视频模型方面显示出了有效的扩展性。
视频生成的灵活性:Sora能够生成不同分辨率、时长和宽高比的视频,这使得它能够直接为不同设备创建内容,或者在全分辨率生成之前快速原型化内容。
语言理解:为了训练文本到视频的生成系统,需要大量带有对应文本标题的视频。研究者们应用了DALL·E 3中引入的重新字幕技术(re-captioning technique),首先训练一个高度描述性的字幕模型(descriptive captioner model),然后使用它为训练集中的所有视频生成文本标题。
图像和视频编辑:Sora不仅可以通过文本提示生成视频,还可以通过现有图像或视频进行提示。这使得Sora能够执行广泛的图像和视频编辑任务,如创建完美循环视频(perfectly looping video)、动画静态图像(animating static images)、向前或向后扩展视频(extending videos forwards or backwards in time)等。
模拟能力:当视频模型在大规模训练时,展现出一些有趣的新兴能力(emergent capabilities),使得Sora能够模拟物理世界中的某些特点——如动态相机运动(dynamic camera motion)、长程一致性(long-range coherence)、物体持久性(object permanence)等。
限制:尽管Sora展示了作为模拟器的许多能力,但它仍然存在许多限制,例如不准确模拟基本物理交互(如玻璃破碎)或某些交互(如吃食物)不总是产生正确的物体状态变化。研究者们认为,Sora目前的能力表明,继续扩展视频模型是开发物理和数字世界模拟器的一个有前景的路径。这些模拟器将能够模拟其中的对象、动物和人物。
技术特点
三维空间连贯性:Sora能够生成带有动态相机运动的视频,让人物和场景元素在三维空间中保持连贯的运动。
模拟数字世界:Sora能够模拟人工过程。如视频游戏,可以同时控制Minecraft中的玩家并高保真地渲染游戏世界。
长期连续性和物体持久性:Sora通常能够有效地模拟短期和长期依赖关系,能在一个样本中生成同一角色的多个镜头,确保外观一致。
与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为,比如画家在画布上留下新笔触或吃汉堡时留下咬痕。
训练过程
启发和架构:Sora的训练受到大语言模型(LLM)的启发,这些模型通过在互联网规模的数据上训练获得广泛能力。Sora是一种扩散型变换器模型(diffusion transformer)。
视频压缩和补丁:首先,视频被压缩到低维潜在空间,然后分解成时空补丁。这些补丁在变换器模型中充当标记(token)。
网络训练:训练了一个网络来降低视觉数据的维度,输出压缩的潜在表示。Sora在这个空间上训练并生成视频,同时开发了对应的解码器模型将潜在表示映射回像素空间。
训练数据和提示:Sora的训练使用了大量标注好的图片数据,并且应用了DALL·E 3中的重新字幕技术。GPT技术也被用来将用户的简短提示转换成更详细的提示。
文章还提到,Sora的训练没有对素材进行裁切,而是使用原尺寸视频,这提高了构图和取景的质量。此外,文章讨论了Sora在视频生成领域的潜在应用,以及它如何可能对行业产生结构性变化。最后,文章提到了Sora的发布对3D生成等多模态领域的积极影响。
一些insights总结
1. 视频和图像的统一表示
Sora模型通过将视频和图像数据转换为时空补丁(patches),实现了对视频和图像的统一处理。
这种表示方式类似于语言模型中的tokens,使得单帧图像被视为视频的一个瞬间,从而统一了视频和图像的训练和推理过程。
2.transformer和diffusion模型的结合
Sora采用了变换器(transformer)架构,并结合了扩散模型(diffusion model)的技术。首先,通过编码器(encoder)将视频在时间和空间上压缩到低维潜在空间,然后从这个空间提取时空补丁进行训练,这种方法提高了视频生成的效率和质量。
3.3D表征技术的应用
尽管报告中没有明确提及,Sora可能在隐空间中使用了如NeRF(神经辐射场)或Gaussian splatting等3D表征技术,这些技术有助于更精确地模拟物体、环境和镜头之间的关系,从而提高视频生成的真实感。
4.训练数据和缩放定律
Sora的成功部分归因于OpenAI DALL·E 3项目中积累的大量标注图片数据,以及遵循的缩放定律(scaling law),这两者共同促进了模型性能的提升。
5.原尺寸视频训练
Sora不将视频裁剪到固定尺寸,而是直接使用原尺寸视频进行训练,如1920x1080p或1080x1920p的60秒视频。这种方法提供了更大的采样灵活性和更好的构图效果,预示着视频生成技术的新发展方向。
最后,为文生视频的先驱者们捏一把汗。
SORA两位作者的主页:
https://www.timothybrooks.com/about/
https://www.wpeebles.com/
原文链接:Video generation models as world simulators (openai.com)
网友评论