GPT-4o 丝滑流畅的新语音功能开始推送，预设四个配音

ChatGPT人工智能2024-08-01 00:24:31516

先做个广告：如需代注册ChatGPT或充值 GPT5会员（plus），请添加站长微信：gptchongzhi

7月31日，OpenAI 宣布了一个重大更新，他们将向部分 ChatGPT Plus 的付费订阅用户开放 GPT-4o 的语音模式。这项更新将允许用户与 AI 进行更加自然和流畅的对话。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

GPT-4o 不仅提供了 GPT-4 级别的智能，而且速度更快，改进了跨文本、语音和视觉的功能。正如 OpenAI 首席技术官米拉·穆拉蒂（Mira Murati）在演讲中提到的：“在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。” 这种统一的模型设计，使得 GPT-4o 在理解和生成语音方面具有显著的优势。

GPT-4o 语音模式的一个显著特点是它的快速反应和真实的声音。OpenAI 表示，与 GPT-3.5 模型2.8秒的平均语音反馈延迟相比，GPT-4 的延迟达到5.4秒，但是，新一代的 GPT-4o 的语音延迟仅为232毫秒，能够实现流畅的对话体验。此外，GPT-4o 语音模式允许用户随时打断对话，能够感知用户语音中的情感语调，包括悲伤、兴奋甚至是歌唱。这使得聊天机器人变成了一个能够理解和回应人类情感的智能伙伴。

原先，OpenAI 计划在6月底邀请一小部分 ChatGPT Plus 用户测试 alpha 版本， OpenAI 发言人 Taya Christianson 表示这是 “提高模型检测和拒绝某些内容的能力。”该公司与 100 多名讲 45 种不同语言的外部红队人员（试图攻击技术以寻找漏洞的人）一起测试了该语音功能。由于需要更多时间来完善模型并提升其特定内容的检测和拒绝能力，官方在6月宣布了测试推迟的消息。经过这么长时间的等待和期待，现在 GPT-4o 的语音模式终于陆续向部分用户开放了。

GPT-4o 新语音模式将仅使用由配音演员制作的四种预设声音，分别是 Juniper、Breeze、Cove 和 Ember 。此前在五月份演示的 Sky 配音因与好莱坞明星斯嘉丽·约翰逊的声音相似而引发了法律纠纷，导致 OpenAI 暂停使用了该语音。OpenAI 发言人 Lindsay McCallum 表示：“ChatGPT 无法模仿其他人的声音，无论是个人还是公众人物，并且会阻止与这些预设声音不同的输出。”OpenAI 还引入了新的过滤器，以确保软件能够发现并拒绝某些受版权保护的音频的请求。

据悉，语音模式将于今年秋季向所有ChatGPT Plus用户开放。OpenAI表示：“通过逐步推进，我们可以密切监控新语音模式的使用情况，并根据实际反馈不断改进模型的能力和安全性。”发布会期间展示的屏幕共享功能还在开发中，目前未确定推出时间，通过和ChatGPT分享智能手机摄像头提供的语音反馈功能已经可以使用。

chatgpt plus(GPT4)代充值