解构 GPT-4o 语音交互

ChatGPT人工智能2024-06-08 14:45:53737

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

OpenAI 在北京时间5月14日发布了GPT-4o

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

- GPT-4o（"o"代表"omni"全能）是一个能够实时处理音频、视觉和文本的模型。

- 它可以接受文本、音频、视觉作为输入，并生成文本、音频和图像的任一模态作。

- GPT-4o对音频输入的响应时间平均为320毫秒，与人类对话的响应时间相近。

- 与之前的Voice Mode相比，GPT-4o通过一个神经网络处理所有输入和输出，提高了信息处理的效率和质量。

- 计划在未来几周内向一小群受信任的合作伙伴推出GPT-4o的音频等模态支持。

截至目前（6月6日） GPT-4o 仍然没有开放语音相关 API。

GPT-4o 语音交互强在哪里？

GPT-4o 演示环节除了展示出语音交互的丝滑低延迟之外，而且在输出语音上可以很好地遵循指令（如：你可以要求声音更 emotional、更 drama，maximal emotional、语速更快等），相比之前固定的单一机械音频输出，这显著提升了“智能性”，说 4o 颠覆语音交互一点都不为过。

GPT-4o 模型

在官方介绍中明确说到:

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network.

输入输出可以是：文本、音频、视觉，也就是说 <输入，输出> 可以有 3x3 种组合，可以：文本对话、文生图、文字到语音、语音到文字、语音到语音等等。

这里引用 AnyGPT 的配图来展示：

纽约时报去年曾报道，OpenAI 耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。

想必 OpenAI 通过精细化的数据清洗、打标来构造了大量的多模态数据集用于模型训练。

GPT-4o 语音交互如何做到低延迟？

端到端建模方式消除了模块之间的衔接延迟（如：speech-> ASR -> LLM -> TTS -> speech）。
GPT 天然 FirstToken 低延迟
将全双工交互融入模型、提高打断智能性/灵敏性，GPT 持续接收 InputSpeech，在输出端通过添加多个 Head 的方式用来做 VAD、语意是否结束、是否主动打断等方面的任务，可在恰当位置开始音频理解、生成回复音频等任务。