ChatGPT发布三个新语音模型，一个新平台 openai.fm

ChatGPT人工智能2025-03-22 09:53:56632

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

继上周的 Web Search Tool（联网搜索工具）、File Search Tool（文件搜索工具）、Computer Use Tool（计算机操作工具）、Responses API 以及 Agents SDK 后，ChatGPT继续给 AI Agent 领域上大菜。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

这一次是语音交互相关的开发者工具。

3月21日，ChatGPT又是毫无预兆地开启了一场针对开发者的直播发布会。

本次直播发布的内容，总结一下：3 个新语音模型 + 1 个新平台。

3 个新语音模型

语音转文本模型：gpt-4o-transcribe
语音转文本模型：gpt-4o-mini-transcribe
文本转语音模型：gpt-4o-mini-tts

1 个新平台

为了让开发者和个人用户方便地试用上面那个“文本转语音”模型 gpt-4o-mini-tts，ChatGPT 还专门搭建了一个体验平台：openai.fm。

除了正常的文本交互外，语音交互 是人机交互中重要组成部分。

而 AI 工具中的语音交互，目前有两种主流实现方式。

一种被称为 高级语音模式（Advanced Voice Mode）。这种模式是端到端的语音对话，即由同一个底层模型先接收语音输入，然后处理、生成语音输出，以更高效、自然的方式实现几乎无延迟的语音聊天。

ChatGPT、谷歌 Gemini、xAI 的 Grok 目前都支持这种类型的语音对话。

另一种则是更为传统的方式：先由一个“语音转文本”模型专门处理输入的语音，将其转化为文本；然后把转录的文本发送给 AI 模型，生成相应的文本回答；最后再由一个“文本转语音”模型把上一步中生成的文本回答转为语音，最终输出给用户。类似于“管道（pipeline）”操作。

在实时语音模式出现之前，几乎所有的语音对话应用都是通过这种形式实现的。比如 OpenAI 的 Whisper（语音转文本模型）、TTS 和苹果早期的 Siri 系统。

这种 pipeline 式的语音模式效果肯定不如高级语音模式自然流畅，但它胜在模块化，可控性、可操作性（可玩性）更高。

所以 OpenAI 这几个新模型都是针对这种传统的语音模式推出的。

Whisper 是 OpenAI 早在 2022年就推出的一个语音转文本模型。

本次新推出的 2 个语音转文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 则是在 Whisper 的基础上更进一步，主要体现在更低的错误率（Word Error Rate，WER），更高的语言识别和准确性。

比如在基准测试中，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的错词率明显更低（这个指标越低越好）。

下面则是 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 与其他语音转文本模型的表现对比，包括谷歌的 gemini-2.0-flash、ElevenLabs 的 scribe 以及 Deepgram 的 Nova 系列。

很明显，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的综合实力最强，尤其是英语。值得一提的是，谷歌的 gemini-2.0-flash 综合水平也很高，这也是 Gemini 系列模型的强项之一：多模态。

有了语音转文本模型，我们就可以把语音输入转录为文本加以利用。

但如果要构建语音类 AI Agent，单有语音转文本模型肯定是不够的。因为还需要文本转语音模型将生成的回答文字转为语音。

本次发布的新文本转语音模型名为 gpt-4o-mini-tts。其中 TTS 就是 Text To Speech，文本转语音的缩写。其实这并不是 OpenAI 第一个 TTS 模型。早在去年3月 OpenAI 就开始把自家的 TTS 模型应用在 ChatGPT 上，用户可以自行选择让 ChatGPT 把生成的文本答案以语音的形式播报出来。

就像下面这样。