先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 从他的 X 帐户发布了似乎是使用该公司全新的 GPT-4o 模型生成的第一个公共图像。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
正如您将在下图中看到的那样,它非常逼真,显示一个穿着带有 OpenAI 标志的黑色 T 恤的人用布擦拭黑板,上面写着粉笔文字“在模态之间转移。假设我们直接用一个大的自回归变压器对 P(文本、像素、声音)进行建模。有什么优点和缺点?
新的 GPT-4o 模型于周一首次亮相,它改进了之前的 GPT-4 系列模型(GPT-4、GPT-4 Vision 和 GPT-4 Turbo),速度更快、更便宜,并保留了更多来自音频和视觉等输入的信息。
它之所以能够做到这一点,是因为 OpenAI 采用了与之前的 GPT-4 类 LLM 不同的方法。虽然这些模型将多个不同的模型链接在一起,并将音频和视觉等其他媒体转换为文本并返回,但新的 GPT-4o 从一开始就接受了多媒体令牌的训练,使其能够直接分析和解释视觉和音频,而无需先将其转换为文本。
基于上图,新方法比 OpenAI 的上一个图像生成模型 DALL-E 3 有了显着改进。我在 ChatGPT 中通过 DALL-E 3 运行了类似的提示,这是结果。
如您所见,Brockman 使用 GPT-4o 创建的图像在文本生成的质量、逼真度和准确性方面显着提高。
然而,GPT-4o 的原生图像生成功能尚未公开。正如布罗克曼在他的 X 帖子中提到的那样,“团队正在努力将这些带给世界。
网友评论