先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
7月31日,OpenAI 宣布了一个重大更新,他们将向部分 ChatGPT Plus 的付费订阅用户开放 GPT-4o 的语音模式。这项更新将允许用户与 AI 进行更加自然和流畅的对话。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
GPT-4o 不仅提供了 GPT-4 级别的智能,而且速度更快,改进了跨文本、语音和视觉的功能。正如 OpenAI 首席技术官米拉·穆拉蒂(Mira Murati)在演讲中提到的:“在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。” 这种统一的模型设计,使得 GPT-4o 在理解和生成语音方面具有显著的优势。
GPT-4o 语音模式的一个显著特点是它的快速反应和真实的声音。OpenAI 表示,与 GPT-3.5 模型2.8秒的平均语音反馈延迟相比,GPT-4 的延迟达到5.4秒,但是,新一代的 GPT-4o 的语音延迟仅为232毫秒,能够实现流畅的对话体验。此外,GPT-4o 语音模式允许用户随时打断对话,能够感知用户语音中的情感语调,包括悲伤、兴奋甚至是歌唱。这使得聊天机器人变成了一个能够理解和回应人类情感的智能伙伴。
原先,OpenAI 计划在6月底邀请一小部分 ChatGPT Plus 用户测试 alpha 版本, OpenAI 发言人 Taya Christianson 表示这是 “提高模型检测和拒绝某些内容的能力。”该公司与 100 多名讲 45 种不同语言的外部红队人员(试图攻击技术以寻找漏洞的人)一起测试了该语音功能。由于需要更多时间来完善模型并提升其特定内容的检测和拒绝能力,官方在6月宣布了测试推迟的消息。经过这么长时间的等待和期待,现在 GPT-4o 的语音模式终于陆续向部分用户开放了。
GPT-4o 新语音模式将仅使用由配音演员制作的四种预设声音,分别是 Juniper、Breeze、Cove 和 Ember 。此前在五月份演示的 Sky 配音因与好莱坞明星斯嘉丽·约翰逊的声音相似而引发了法律纠纷,导致 OpenAI 暂停使用了该语音 。OpenAI 发言人 Lindsay McCallum 表示:“ChatGPT 无法模仿其他人的声音,无论是个人还是公众人物,并且会阻止与这些预设声音不同的输出。”OpenAI 还引入了新的过滤器,以确保软件能够发现并拒绝某些受版权保护的音频的请求 。
据悉,语音模式将于今年秋季向所有ChatGPT Plus用户开放。OpenAI表示:“通过逐步推进,我们可以密切监控新语音模式的使用情况,并根据实际反馈不断改进模型的能力和安全性。”发布会期间展示的屏幕共享功能还在开发中,目前未确定推出时间,通过和ChatGPT分享智能手机摄像头提供的语音反馈功能已经可以使用。
网友评论