Sora : OpenAI 的 vision

ChatGPT人工智能2024-02-18 10:20:22898

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

一觉醒来，刷到爆炸级新闻：OpenAI 发布了视频模型 Sora。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

https://openai.com/sora

看了官方演示，又去 X 上看了 @sama 随机抽取幸运观众秀肌肉。我最近正好也用了一些 AI 视频工具，相比之下，Sora 展现出了碾压级的时长生成能力，画面一致性，运动幅度，prompt 理解力，易用性，真实程度。我不得不感叹：OpenAI 所到之处，寸草不生。今天让我想起了去年二三月的那阵浪潮：一觉醒来一切都变了。按行业惯例来看几个实例感受一下

拉布拉多在山上做播客

不同 AI 视频工具的效果对比

此前我们对 AI 生成的视频是抱有宽容的，我们知道现在技术还不够强，所以我们以更低的标准去评价这些视频。此后这种特定的宽容将变得不复存在，甚至会出现地位互换

“那个视频确实一般，但考虑到是纯天然拍摄的，我觉得还是不错的啦。”

看了 Sora 的能力后，我去问了 Perplexity 一个问题

相信聪明的你已经知道我在想什么了：镜头是我们人类构建视频的元部件（meta piece），而 Sora 已经展现出了高质量单镜头的构建能力。Sora 正式上线后一个月内一定会有优秀的电影级内容产出。我们都知道有一天 AI 会大幅冲击视频行业生态，只不过没想到今天能窥到那一刻的样子。

根据技术现状来看，甚至可以说研究当下的 AI 视频工作流已经毫无意义，直接等 Sora 是更好的选择。怪不得 Sam 在 YC W24 启动会上告诉大家要以 AGI 为前提来思考创业，不要对现有模型（比如 GPT4）打补丁。如果你想知道 Sam 还说了什么，详见文末。

世界模型

今天有两种声音，一种在大呼视频行业将被颠覆；而另一种在怒吼

world model !

（作为一个 Jo 厨必须喊一声：砸瓦鲁多！）

大家对于 Sora 的想象没有停留在视频生成的层面。Sora 生成的视频展现出了对我们所处的三维世界的物理法则的深刻理解，他的产出不像是基于画面的拙劣模仿（大多当前 AI 生成的视频给人这个感觉），而是在理解了世界的基础规律（物理）之后，基于这些法则从底层构建了真实的画面记录。

换句话说：当前其他的 AI 生成视频是把现有的视频（或者说图片）照着画了一遍，而 Sora 则是按照 prompt 在三维世界模拟了一遍整个事件，并且把过程录制下来。这种丝滑的真实感和其他「AI 视频生成」有着根本的区别，因此想象空间也不在一个维度上。今天 OpenAI 对 Sora 的展示就像是给大家看了显示器上惊艳的画面，但也有人窥到了背后那台超级计算机。

那个男人：Ilya

一年前 Ilya 和英伟达 CEO 黄仁勋对谈时提到了 world model（点击可看完整版）

你可以这样理解，当我们训练一个庞大的神经网络，让它能够准确预测互联网上各种文本中下一个单词时，我们实际上是在学习一个世界模型。

表面上看，我们可能只是在学习文本中的统计关联性。但实际上，为了能够很好地压缩这些统计关联性，神经网络学到的是产生这些文本的过程的某种表征。这些文本实际上是现实世界的一个投影。外面有一个真实的世界，它在这些文本上有所映射。

因此，神经网络学到的是越来越多关于人类世界的方方面面，包括人类的情况、希望、梦想和动机、他们之间的互动以及我们所处的情境。神经网络学会了这一切的压缩、抽象、可用的表征。这就是通过准确预测下一个单词所学到的内容。而且，预测下一个单词的准确性越高，我们在这个过程中获得的细节就越多，解析度就越高。

当时 Ilya 指的是 GPT，而 Sora 作为一个同样基于 transformer 架构的模型，似乎也在印证 Ilya 的说法，只是当时他不能告诉我们 Sora 这个项目存在。

不止于视频

生成视频只是 Sora 最容易呈现的的能力，就像聊天只是 GPT 最容易被看懂的能力

所有人都能看懂 Sora 对视频行业的冲击，同时也有少部分人在思考他对交互内容行业（游戏、VR）的意义。创造世界本就是游戏在做的事，如果 AI 理解了我们当前生活的世界，他就能创造各种不一样的世界。

这才是真正的元宇宙：不是基于三次元生活的复现，而是像头号玩家中那样在物理法则都不一样的宇宙中穿梭而又可以在同一个平台交流。此时突然发现 The Matrix 其实有个 bug：当我们能够创造世界的时候，又怎么会满足于生活在和现实一样的世界呢？

创造是理解的过程而不是结果

https://openai.com/research/generative-models

这是 OpenAI 官网上 2016 年的一篇博客

在OpenAI，我们的核心愿景之一是开发出能够让计算机理解我们世界的算法和技术。

你可能很容易忘记自己对世界的了解有多深：你知道世界是由三维环境构成的，有着移动、碰撞、互动的物体；有行走、交谈、思考的人类；有吃草、飞翔、奔跑或吠叫的动物；还有显示着关于天气、篮球比赛赢家或1970年发生了什么的信息的显示器。

这些海量的信息就在那里，很大程度上是容易获取的——无论是在原子构成的物理世界中，还是在位元组成的数字世界中。唯一的难题在于开发出能够分析和理解这些数据宝藏的模型和算法。

生成模型是实现这一目标最有希望的方法之一。训练生成模型首先需要收集某一领域大量的数据（例如，想象有数百万的图片、句子或声音等），然后训练模型生成类似的数据。这种方法背后的直觉来源于理查德·费曼的一句名言：

"我无法创造的，我就不理解。"

（题外话：OpenAI 喜欢费曼，用 AI 玩 Dota2，并且这种“玩”成为了 GPT 的铺垫？也太酷了吧！）

OpenAI 的 vision（call 一下）是让计算机理解世界，而要实现真正的理解则必须通过创造内容。就像写作不仅是思考的结果，更是思考的工具。这与我们人类的方法是一样的，理解过程中的输出在长线视角看来也许只是副产物（如果你还没意识到这点，现在是个好时机）。

ChatGPT 证明了 OpenAI 对文字的掌握，但文字是对信息的极大压缩，它显然不是理解世界的终点。图像（细节极其丰富）和视频（在图像之上叠加了物理和时空）的创造则需要显著更深刻的理解能力。为了有一天能构建真正的 AGI，Sora 这种级别的视频模型是路径上的必经之处。

Sora 并不是 OpenAI 在新方向（视频）的新能力，而是在既定路线（理解世界）上的跃迁。

我们能做什么

我们应该基于问题而不是工具进行教学（以及学习）。 —— 伊隆·马斯克

黄仁勋在最近的访谈中提到：今年，每一个行业都将成为技术行业。在 AI 平权时代，任何人都可以像使用手机一样轻松使用 AI 来帮助自己实现想法。如果你是一个像我一样硬技能较为欠缺的 AI 爱好者，那你可以和我一起欢呼：虽然还不知道能用 Sora 做什么，但未来的自己又多了一项技能。

等等，我们真的只能干等着 Sora 上线吗？今天恰好读了和菜头的这篇「准备拍你的电影」，有种猛然惊醒的感觉：我们已经知道未来有一个不需要复杂工作流、效果极好的 AI 视频工具，那么在他落地之前不正是一段做准备的好时间吗？

不要只为了技术变革热血沸腾，更要为了内容创作做好选题和剧本。这是我们学习 Sora 的最佳方案，也是身为人类对自己面向未来的竞争力培养：用它完成一个有挑战，有意思的项目。内容为王是长期的真理。OpenAI 为我们解决了技术挑战，我们应该花时间思考和打磨内容。

每个人心底都有一个故事，写这个故事最好的时间是十年前，其次是现在，更差则是 Sora 发布之后。

为了人类，我将在今天开始写我的那个故事，希望你也不要太晚开始。

p.s.

眼见为实，因为看见所以相信。

视觉的直观冲击远大于文字无数倍，Sam 1 个月前跟大家说 AGI 不远了的时候，大家将信将疑。今天 Sora 的发布则将所有人变为了信徒。

如果你看了 Sora 的新闻有些焦虑，大可不必。虽然 Pika 们可能无法入眠，但对大部分人而言，今天只是大年初七。

Sam 在 YC W24 启动会上的分享（基于 Xiaohu 日报整理）

暗示我们（OpenAI）可能已经非常接近实现AGI。AGI 将覆盖一大批创业者，比如 Sora 又杀死了一堆
建议使用最先进的模型，而不是花费太多时间进行微调和优化。通过 RAG 提供更多信息比微调更好（ROI 角度）
正确的做法是设想一个“上帝般的”模型正在运作，然后来设计自己的产品。也就是不要挡在OpenAI 前进的路径上，不要去解决当下模型缺失的那些小拼图——这些问题不会是长期机会
API 会持续变得更快、更可靠、更便宜，然而性能和成本之间始终存在平衡。所以最新一代 API 价格不会持续降低，但老的会（想象一下如果 GPT4 比现在的 3.5 再便宜 90%）
GPT5 相对于 GPT4 会有指数级的提升，比如多模态（看起来 Sora 会是 GPT5 的能力之一），推理能力，一致性，更多个性化的能力来服务千人千面的用户（这个能力已经在线上灰度了，可惜没灰到我）

封面图来自 Midjourney

a post modern robot with its digital eye wide open, scanning the Earth. The setting is an abstract background that represents the vastness of knowledge the robot is trying to comprehend. Add additional elements like books, mathematics equations, and science formulas floating around to emphasize the robot's eagerness to learn." --ar 16:9 --niji 6 --s 700

chatgpt plus(GPT4)代充值