先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI 周五推出了一项名为 Voice Engine 的语音引擎,仅凭一段15秒的声音样本,便能够精准模仿出那个人的声音。虽然并不是一项新技术,但预示着OpenAI建立了全模态的能力,向着AGI继续进发。其效果如何,和当前市面上的声音克隆技术有哪些差异,我们全面梳理一下。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
Voice Engine 的能力
在OpenAI 的官网上,展示了具体的能力
1、参考语音的生成
就是通过一段15s的样本,可以模仿生成他的声音,特性包括生成自然听起来的语音,可以模仿说话者的语调、语速、口音和其他语音特征。情感表达,生成的语音不仅在音色上与原声相似,而且在情感表达上也保持一致。
2、多语言支持
多语言支持:Voice Engine 支持多种语言,能够为不同语言的用户生成自然听起来的语音。这使得它能够服务于全球受众,并帮助跨越语言障碍。我们这里可以听一下效果。
其他给出的样例则都是这样技术的应用案例。
全球社区服务:Voice Engine 通过改进偏远地区的基本服务交付来帮助接触全球社区。
支持非言语交流者:对于有语言障碍的个体,Voice Engine 可以提供治疗性应用,如为影响言语的疾病患者提供教育增强。
帮助患者恢复声音:Voice Engine 也被用于帮助因突然或退行性言语状况而失去声音的患者恢复他们的声音。
其实语音克隆技术发展的时间已经比较久了,目前市面上的语音克隆技术也比较多,我们先梳理一下比较有影响力的语音克隆技术。
语音克隆技术
1、VALL-E X 微软
VALL-E X 是微软研究院开发的一个创新的多语言文本转语音(TTS)模型。这个模型不仅能够进行高质量的语音合成,还能够实现零样本语音克隆,即仅通过一段简短的录音(3到10秒),就能够复制并模仿特定说话者的声音。
技术特点包括多语言支持:VALL-E X 支持多种语言,包括英语、中文和日语,能够进行自然、富有表现力的语音合成。
零样本语音克隆:这是VALL-E X 最引人注目的特点之一。用户只需提供一段简短的录音,模型就能够生成与录音中说话者声音极为相似的语音。
语音情感控制:VALL-E X 能够捕捉并复制说话者的情感,使得合成的语音不仅在音色上与原声相似,而且在情感表达上也保持一致。
跨语言语音合成:VALL-E X 还能够实现跨语言的语音合成,即使在说话者的母语之外的语言上,也能够保持说话者的音色和情感。
2、MyShell的OpenVoice
OpenVoice是由MyShell推出的一个免费开源的AI即时语音克隆项目。与其他语音克隆技术相比,OpenVoice的优势在于仅需一段简短的音频,便能以惊人的准确度复刻说话者的音色,创造出让人信以为真的自然语音。OpenVoice还可以对语音风格进行精细控制,包括情感的微妙变化,口音和节奏的细微差别、语速的快慢和语调的抑扬顿挫。此外,OpenVoice支持零样本跨语言语音克隆,即使在没有大量说话人多语言数据集的情况下,也能实现对任何语言的语音克隆。
3、Google的WaveNet
Google的WaveNet是一种深度神经网络,用于生成自然听起来的语音。WaveNet能够捕捉到语音的微妙细节,如音调、节奏和口音,从而生成高质量的语音。WaveNet技术已被应用于Google Assistant和其他Google产品中,提供了更加自然和流畅的用户体验。
4、 Baidu的Deep Voice
百度的Deep Voice是一个实时的语音合成系统,它能够快速生成接近真人的语音。Deep Voice使用了深度学习技术来理解语音的特征,并能够模拟多种语言和口音。这项技术在提供个性化语音服务和改善语音交互体验方面具有潜力。
但上面的很多技术并非都是可用的,我们看看有哪些可用的开源项目。
开源项目
1、GPT-SoVITS
项目地址
https://github.com/RVC-Boss/GPT-SoVITS
特性:
零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
少样本 TTS:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
WebUI 工具:集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
2、OpenVoice
项目地址
https://github.com/myshell-ai/OpenVoice
特性:
精确的音色复制。OpenVoice 能够精确地复制参考音色,并生成多种语言和口音的语音。
灵活的声音风格控制。OpenVoice 允许对声音风格进行细粒度控制,例如情感和口音,以及其他风格参数,包括节奏、停顿和语调。
零样本跨语言声音克隆。生成的语音或参考语音的语言不需要出现在大规模多说话者多语言训练数据集中。
3、VALL-E X
微软研究院虽然提出了VALL-E X的方法,但并未发布具体的代码或预训练模型。然而,开源社区中的开发者们基于这一概念复现并训练了一个可用的VALL-E X模型,并将其开源。
项目地址
https://github.com/Plachtaa/VALL-E-X
开发者们开源了预训练模型和推理代码。
以上就是对声音克隆当前技术的大致梳理,随着技术的不断进步和完善,我们可以期待这项技术在未来将在更多领域发挥重要作用。
本文链接:https://shikelang.cc/post/1198.html
必应chatgpt4.0 插件chatgpt4.0收费吗chatgpt4.0是哪个国家发布的chatgpt4.0国内可以用吗安卓版chatgpt怎么下载chatgpt干什么的chatgpt可以用在智能家用电器上吗chatgpt4怎么充值chatGPT 写毕业论文ChatGPT辅助编排
网友评论