先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
继上周的 Web Search Tool(联网搜索工具)、File Search Tool(文件搜索工具)、Computer Use Tool(计算机操作工具)、Responses API 以及 Agents SDK 后,ChatGPT继续给 AI Agent 领域上大菜。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top

这一次是语音交互相关的开发者工具。
3月21日,ChatGPT又是毫无预兆地开启了一场针对开发者的直播发布会。

本次直播发布的内容,总结一下:3 个新语音模型 + 1 个新平台。
3 个新语音模型
语音转文本模型:
gpt-4o-transcribe
语音转文本模型:
gpt-4o-mini-transcribe
文本转语音模型:
gpt-4o-mini-tts
1 个新平台
为了让开发者和个人用户方便地试用上面那个“文本转语音”模型 gpt-4o-mini-tts
,ChatGPT 还专门搭建了一个体验平台:openai.fm
。

除了正常的文本交互外,语音交互 是人机交互中重要组成部分。
而 AI 工具中的语音交互,目前有两种主流实现方式。
一种被称为 高级语音模式(Advanced Voice Mode)。这种模式是端到端的语音对话,即由同一个底层模型先接收语音输入,然后处理、生成语音输出,以更高效、自然的方式实现几乎无延迟的语音聊天。
ChatGPT、谷歌 Gemini、xAI 的 Grok 目前都支持这种类型的语音对话。

另一种则是更为传统的方式:先由一个“语音转文本”模型专门处理输入的语音,将其转化为文本;然后把转录的文本发送给 AI 模型,生成相应的文本回答;最后再由一个“文本转语音”模型把上一步中生成的文本回答转为语音,最终输出给用户。类似于“管道(pipeline)”操作。
在实时语音模式出现之前,几乎所有的语音对话应用都是通过这种形式实现的。比如 OpenAI 的 Whisper(语音转文本模型)、TTS 和 苹果早期的 Siri 系统。
这种 pipeline 式的语音模式效果肯定不如 高级语音模式 自然流畅,但它胜在模块化,可控性、可操作性(可玩性)更高。
所以 OpenAI 这几个新模型都是针对这种传统的语音模式推出的。

Whisper 是 OpenAI 早在 2022年就推出的一个 语音转文本模型。

本次新推出的 2 个语音转文本模型 gpt-4o-transcribe
和 gpt-4o-mini-transcribe
则是在 Whisper 的基础上更进一步,主要体现在更低的错误率(Word Error Rate,WER),更高的语言识别和准确性。
比如在基准测试中,gpt-4o-transcribe
和 gpt-4o-mini-transcribe
的错词率明显更低(这个指标越低越好)。

下面则是 gpt-4o-transcribe
和 gpt-4o-mini-transcribe
与其他语音转文本模型的表现对比,包括谷歌的 gemini-2.0-flash
、ElevenLabs 的 scribe
以及 Deepgram 的 Nova
系列。
很明显,gpt-4o-transcribe
和 gpt-4o-mini-transcribe
的综合实力最强,尤其是英语。值得一提的是,谷歌的 gemini-2.0-flash
综合水平也很高,这也是 Gemini 系列模型的强项之一:多模态。

有了语音转文本模型,我们就可以把语音输入转录为文本加以利用。
但如果要构建语音类 AI Agent,单有语音转文本模型肯定是不够的。因为还需要文本转语音模型将生成的回答文字转为语音。
本次发布的新文本转语音模型名为 gpt-4o-mini-tts
。其中 TTS 就是 Text To Speech,文本转语音 的缩写。其实这并不是 OpenAI 第一个 TTS 模型。早在去年3月 OpenAI 就开始把自家的 TTS 模型应用在 ChatGPT 上,用户可以自行选择让 ChatGPT 把生成的文本答案以语音的形式播报出来。
就像下面这样。

gpt-4o-mini-tts
则更进一步。开发者可以用提示词来控制这个 TTS 模型以什么样的方式来生成语音,更强的可控性和可定制化。
比如,你可以控制 gpt-4o-mini-tts
的声音是温暖的,还是尖锐的;语速快一点还是慢一些;语气是积极型还是中性;发音、音调等等一系列细节。
为了让开发者和用户能更方便地体验 gpt-4o-mini-tts
模型,OpenAI 还专门开发了一个对应的平台。
平台名为 “OpenAI FM”,地址是 openai.fm
。网站整体走的是复古风。
使用起来也很方便,选择音色、气氛,以及可自定义的提示词,右侧输入你希望转录的文本资料,点击 Play
即可。生成速度实测非常快,几秒钟即可生成一段语音。

实测支持中文,效果怎么说呢,AI 味还是比较浓的。也可能是因为我没有修改左边的提示词。
这三个新模型的使用方法和 OpenAI 其他模型的 API 差不多:OpenAI 开放平台。目前已面向所有用户开放。

而其 API 价格也是较为合理,可以说是“人人用得起”。
语音转文本模型 gpt-4o-transcribe
和 gpt-4o-mini-transcribe
估算下来,大约处理 1 分钟的音频成本分别为 0.006 和 0.003 美元。是的,你没有看错。而文本转语音模型 gpt-4o-mini-tts
的成本约为每分钟 0.015 美元。

结语
ChatGPT 新发布的这些语音类模型算得上是“诚意满满”了。
网友评论