ChatGPT发布三个新语音模型,一个新平台 openai.fm

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

继上周的 Web Search Tool(联网搜索工具)、File Search Tool(文件搜索工具)、Computer Use Tool(计算机操作工具)、Responses API 以及 Agents SDK 后,ChatGPT继续给 AI Agent 领域上大菜。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

这一次是语音交互相关的开发者工具。

3月21日,ChatGPT又是毫无预兆地开启了一场针对开发者的直播发布会。

本次直播发布的内容,总结一下:3 个新语音模型 + 1 个新平台

3 个新语音模型

  1. 语音转文本模型:gpt-4o-transcribe

  2. 语音转文本模型:gpt-4o-mini-transcribe

  3. 文本转语音模型:gpt-4o-mini-tts

1 个新平台

为了让开发者和个人用户方便地试用上面那个“文本转语音”模型 gpt-4o-mini-tts,ChatGPT 还专门搭建了一个体验平台:openai.fm



除了正常的文本交互外,语音交互 是人机交互中重要组成部分。

而 AI 工具中的语音交互,目前有两种主流实现方式。

一种被称为 高级语音模式(Advanced Voice Mode)。这种模式是端到端的语音对话,即由同一个底层模型先接收语音输入,然后处理、生成语音输出,以更高效、自然的方式实现几乎无延迟的语音聊天。

ChatGPT、谷歌 Gemini、xAI 的 Grok 目前都支持这种类型的语音对话。

另一种则是更为传统的方式:先由一个“语音转文本”模型专门处理输入的语音,将其转化为文本;然后把转录的文本发送给 AI 模型,生成相应的文本回答;最后再由一个“文本转语音”模型把上一步中生成的文本回答转为语音,最终输出给用户。类似于“管道(pipeline)”操作。

在实时语音模式出现之前,几乎所有的语音对话应用都是通过这种形式实现的。比如 OpenAI 的 Whisper(语音转文本模型)、TTS 和 苹果早期的 Siri 系统。

这种 pipeline 式的语音模式效果肯定不如 高级语音模式 自然流畅,但它胜在模块化,可控性、可操作性(可玩性)更高。

所以 OpenAI 这几个新模型都是针对这种传统的语音模式推出的。

Whisper 是 OpenAI 早在 2022年就推出的一个 语音转文本模型。

本次新推出的 2 个语音转文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 则是在 Whisper 的基础上更进一步,主要体现在更低的错误率(Word Error Rate,WER),更高的语言识别和准确性。

比如在基准测试中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的错词率明显更低(这个指标越低越好)。

下面则是 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 与其他语音转文本模型的表现对比,包括谷歌的 gemini-2.0-flash、ElevenLabs 的 scribe 以及 Deepgram 的 Nova 系列。

很明显,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的综合实力最强,尤其是英语。值得一提的是,谷歌的 gemini-2.0-flash 综合水平也很高,这也是 Gemini 系列模型的强项之一:多模态。



有了语音转文本模型,我们就可以把语音输入转录为文本加以利用。

但如果要构建语音类 AI Agent,单有语音转文本模型肯定是不够的。因为还需要文本转语音模型将生成的回答文字转为语音。

本次发布的新文本转语音模型名为 gpt-4o-mini-tts。其中 TTS 就是 Text To Speech,文本转语音 的缩写。其实这并不是 OpenAI 第一个 TTS 模型。早在去年3月 OpenAI 就开始把自家的 TTS 模型应用在 ChatGPT 上,用户可以自行选择让 ChatGPT 把生成的文本答案以语音的形式播报出来。

就像下面这样。

gpt-4o-mini-tts 则更进一步。开发者可以用提示词来控制这个 TTS 模型以什么样的方式来生成语音,更强的可控性和可定制化。

比如,你可以控制 gpt-4o-mini-tts 的声音是温暖的,还是尖锐的;语速快一点还是慢一些;语气是积极型还是中性;发音、音调等等一系列细节。

为了让开发者和用户能更方便地体验 gpt-4o-mini-tts 模型,OpenAI 还专门开发了一个对应的平台。

平台名为 “OpenAI FM”,地址是 openai.fm。网站整体走的是复古风。

使用起来也很方便,选择音色、气氛,以及可自定义的提示词,右侧输入你希望转录的文本资料,点击 Play 即可。生成速度实测非常快,几秒钟即可生成一段语音。

实测支持中文,效果怎么说呢,AI 味还是比较浓的。也可能是因为我没有修改左边的提示词。



这三个新模型的使用方法和 OpenAI 其他模型的 API 差不多:OpenAI 开放平台。目前已面向所有用户开放。

而其 API 价格也是较为合理,可以说是“人人用得起”。

语音转文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 估算下来,大约处理 1 分钟的音频成本分别为 0.006 和 0.003 美元。是的,你没有看错。而文本转语音模型 gpt-4o-mini-tts 的成本约为每分钟 0.015 美元。

结语

ChatGPT 新发布的这些语音类模型算得上是“诚意满满”了。

chatgpt plus(GPT4)代充值

本文链接:https://shikelang.cc/post/2260.html

ChatGPT语音功能ChatGPT语音对话ChatGPT语音版

更多ChatGPT相关文章

网友评论