如何使用GPT-4o API处理文本、图像和视频

ChatGPT人工智能2024-06-05 12:44:471879

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

2024年5月13日OpenAI发布了最新的大模型GPT-4o。名称中的"o"代表"Omni"（全部）。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

在GPT-4o之前，用户可以使用语音模式与ChatGPT对话，但这是由3个独立的模型驱动的。GPT-4o将这些功能整合为一个模型，使用同一模型就可以统一处理文本、视觉和语音。最关键的是GPT-4o的价格是GTP-4 Turbo的一半！！

本文将和大家一起通过实例来了解一下如何使用GPT-4o API处理文本、图像和视频。

准备

首先，安装 OpenAI SDK for Python。

然后，在OpenAI官方网站登录自己的账号，并生成一个API密钥。

https://platform.openai.com/api-keys

推荐将 API 密钥设置为系统的环境变量，应用于所有项目。

文本处理

我们先来看一下最基本的文本处理。

执行结果：


助手: 你好！当然可以！2 加 2 等于 4。

图像处理

GPT-4o能够直接处理图像，并基于图像做出响应，图像可以通过以下两种形式提供：

Base64编码

URL链接

我们来用下面的图片，尝试以Base64格式和URL链接的形式将此图像发送至API并计算出三角形的面积。

→Base64图像处理

→URL图像处理

输出会分别展示助手对Base64编码图像和URL链接图像的响应。

执行结果：

要计算这个三角形的面积，我们可以使用三角形面积公式：面积 = 1/2 * 底 * 高。

首先，我们需要确定三角形的底和高。图中给出了底边的长度为9，但我们还需要知道高的长度。

我们可以通过将三角形分成两个直角三角形来找到高。假设高将底边分成两部分，分别为x和9-x。根据图中的信息，我们可以得到以下两个直角三角形：

左边的直角三角形，斜边为6，底边为x，高为h。

右边的直角三角形，斜边为5，底边为9-x，高为h。

根据勾股定理，我们可以得到以下两个方程：

(6^2 = x^2 + h^2)

(5^2 = (9 - x)^2 + h^2)

解这两个方程：

(36 = x^2 + h^2)

(25 = (9 - x)^2 + h^2)

展开第二个方程：

(25 = 81 - 18x + x^2 + h^2)

将第一个方程代入第二个方程：

(25 = 81 - 18x + 36)

简化：

(25 = 117 - 18x)

解x：

(18x = 92)

(x = \frac{92}{18} = \frac{46}{9})

将x代入第一个方程求h：

(36 = (\frac{46}{9})^2 + h^2)

(36 = \frac{2116}{81} + h^2)

(36 = 26.1358 + h^2)

(h^2 = 36 - 26.1358)

(h^2 = 9.8642)

(h = \sqrt{9.8642} \approx 3.14)

现在我们知道了底边为9，高为3.14。

我们可以计算面积：

面积 = 1/2 * 底 * 高 = 1/2 * 9 * 3.14 ≈ 14.13

所以，三角形的面积大约是14.13平方单位。

视频处理

目前我们无法通过API直接将视频发送到API，但GPT-4o能够通过对视频帧进行采样并以图像形式提供，从而理解视频内容。截至2024年5月，GPT-4o API尚不支持语音输入，但可使用Whisper处理音频。

视频分割

视频处理需要使用两个Python包：opencv-python和moviepy。它们需要ffmpeg的支持,因此请先行安装。根据您的操作系统，需要执行brew install ffmpeg或sudo apt install ffmpeg。

我们使用OpenAI DevDay Keynote Recap视频，可以通过下面的URL查看。我们把该视频下载保存到本地。

https://www.youtube.com/watch?v=h02ti0Bl6zk

视频将被分解为帧（画面）和音频两个部分进行处理。

视频帧和音频都已就绪，我们将对模型运行一些不同的测试，生成视频总结，并比较使用不同模态时的结果。

视觉总结

视觉总结是通过仅向模型发送视频帧来生成的。仅依赖画面，模型能捕捉视觉方面的内容，但会错过讲者所阐述的细节。

执行结果

在这段视频中，OpenAI举办了一个名为“OpenAI DevDay”的开发者活动。视频展示了活动的开场、会场布置以及演讲内容。以下是视频的主要内容：

1.活动开场：

△视频以“OpenAI DevDay”的标题开场，随后展示了活动的场地和布置。

2.主题演讲回顾：

△演讲者在舞台上介绍了OpenAI的最新进展和产品。

△重点介绍了GPT-4 Turbo的发布及其功能，包括更长的上下文长度、更高的控制能力和更好的知识库。
△演讲中还提到了JSON模式的开启和函数调用的改进。
3.产品发布：
△演讲者介绍了DALL-E 3、GPT-4 Turbo with Vision和TTS（文本转语音）等新产品。

△还展示了自定义模型的功能，允许用户根据自己的需求定制模型。

4.功能演示：

△演讲者展示了如何使用自然语言进行构建，并介绍了API的使用。

△还展示了线程、检索、代码解释器和函数调用等功能。

5.总结和结束：

△演讲者总结了活动的主要内容，并感谢了参与者。

△视频以“OpenAI DevDay”的标志结束。

视频通过展示OpenAI的最新技术和产品，向开发者们传达了公司的最新动态和未来发展方向。

如预期,模型能在较高层面上捕捉视频的视觉方面，但遗漏了讲话中提供的细节。

音频总结

音频总结是通过向模型发送音频的文字记录来生成的。仅使用音频的情况下，模型会偏向于音频内容，忽略了演示文稿和视觉上提供的上下文。目前GPT-4o无法接收语音输入，因此我们使用Whisper-1模型处理音频。

执行结果

欢迎来到我们首次举办的OpenAI开发者日。今天，我们发布了一个新模型——GPT-4 Turbo。以下是一些关键亮点：

GPT-4 Turbo

上下文支持：支持最多128,000个token的上下文。
JSON模式：确保模型响应有效的JSON格式。
多功能调用：可以同时调用多个函数，并且更好地遵循指令。
知识检索：可以从外部文档或数据库中引入知识。
知识更新：GPT-4 Turbo的知识更新至2023年4月，并将持续改进。
API集成：Dolly 3、GPT-4 Turbo with Vision和新的文本转语音模型今天都将进入API。

自定义模型

新计划：推出了一个名为Custom Models的新计划。
合作：研究人员将与公司密切合作，帮助他们使用我们的工具创建适合其特定用例的定制模型。

速率限制

提高速率限制：我们将所有已建立的GPT-4客户的每分钟token数量翻倍。
费用降低：GPT-4 Turbo的提示token费用是GPT-4的三分之一，完成token费用是其二分之一。

GPTs

定制版本：GPTs是为特定目的定制的Chat GPT版本。
无代码编程：无需编程知识，通过对话即可编程GPT。
共享与隐私：可以创建私人GPT，也可以通过链接公开分享，或在Chat GPT Enterprise中为公司创建专用GPT。
GPT商店：本月晚些时候将推出GPT商店。

Assistance API

持久线程：包括持久线程，内置检索，代码解释器和沙盒环境中的Python解释器。
改进的功能调用：改进了功能调用。

展望未来

随着智能技术的广泛集成，我们将拥有随时可用的“超级能力”。我们期待看到大家利用这项技术所做的创新，并共同构建新的未来。感谢大家的参与和支持，期待明年再见。

感谢大家今天的到来。

音频总结偏向于讲话内容，结构比视觉总结差。

音频+视觉总结

通过同时提供音频和视觉输入，生成的总结能够从两个模态中获取信息，因此是最全面的。

执行结果

在首次举办的OpenAI开发者日活动中，OpenAI宣布了一系列新产品和功能：

1.GPT-4 Turbo：新模型GPT-4 Turbo支持多达128,000个上下文标记，并且具有更好的指令遵循能力。它还引入了JSON模式，确保模型响应有效的JSON格式。

2.功能调用：现在可以同时调用多个函数，并且模型在遵循指令方面表现更好。

3.检索功能：平台上推出了检索功能，可以将外部文档或数据库中的知识引入到构建的应用中。

4.知识更新：GPT-4 Turbo的知识更新至2023年4月，并将继续改进。

5.新API功能：DALL-E 3、带视觉功能的GPT-4 Turbo和新的文本转语音模型都将进入API。
6.定制模型：推出了定制模型计划，OpenAI的研究人员将与公司密切合作，帮助他们使用OpenAI的工具创建适合其特定用例的定制模型。
7.更高的速率限制：为所有已建立的GPT-4客户将每分钟的标记数翻倍，并可以在API账户设置中直接请求更改速率限制和配额。
8.GPT-4 Turbo定价：GPT-4 Turbo的价格比GPT-4便宜得多，提示标记便宜3倍，完成标记便宜2倍。

9.GPTs：推出了GPTs，这是为特定目的定制的ChatGPT版本，结合了指令、扩展知识和操作，可以在许多上下文中更好地工作，并提供更好的控制。用户可以通过对话来编程GPT，创建私人GPT，或通过链接公开分享，企业用户还可以为公司创建专用GPT。

10.GPT商店：将在本月晚些时候推出GPT商店。

11.API改进：助理API包括持久线程、内置检索、代码解释器（在沙箱环境中运行的Python解释器）和改进的函数调用。

OpenAI表示，随着智能技术的广泛集成，每个人都将拥有按需的超级能力，并期待看到大家利用这些技术所做的创新和共同构建的新未来。