当前位置：首页 > 资讯 > 科技 > 腾讯力作EzAudio AI：文本即刻转为生动语音，革新音频合成体验

腾讯力作EzAudio AI：文本即刻转为生动语音，革新音频合成体验

腾讯 2024-10-04 09:33:35 爱吃爆米花

近日，约翰霍普金斯大学携手腾讯AI实验室，共同发布了EzAudio文本转音频生成模型。这一创举以其卓越的效率及顶级的文字转语音能力，预示着AI与音频科技领域的一次重大突破，开启了高保真声音合成的新纪元。

EzAudio 的工作原理是利用音频波形的潜在空间，而不是传统的声谱图，这一创新让它能够在高时间分辨率下工作，且无需额外的神经声码器。

EzAudio 的架构被称为 EzAudio-DiT（扩散变换器），采用了多项技术创新来提高性能和效率。其中包括一种新的自适应层归一化技术 AdaLN-SOLA、长跳连接，以及先进的位置编码技术如 RoPE(旋转位置嵌入)。

研究人员表示，EzAudio 生成的音频样本非常逼真，客观和主观评估均优于现有的开源模型。

目前，AI 音频生成市场正快速增长。像 ElevenLabs 这样的知名公司最近推出了一款 iOS 应用，用于文本转语音的转换，显示出消费者对 AI 音频工具的浓厚兴趣。同时，微软和谷歌等科技巨头也在不断加大对 AI 语音模拟技术的投资。

根据 Gartner 的预测，到2027年，40% 的生成式 AI 解决方案将会是多模态的，结合文本、图像和音频的能力，这意味着 EzAudio 这样的高质量音频生成模型可能会在不断演变的 AI 领域中发挥重要作用。

EzAudio 团队已经公开了他们的代码、数据集和模型检查点，强调了透明性，并鼓励该领域的进一步研究。

研究人员认为 EzAudio 的应用可能超越声音效果生成，涉及语音和音乐制作等领域。随着技术的不断进步，它有望在娱乐、媒体、辅助服务和虚拟助手等行业中得到广泛应用。

扩展阅读

腾讯 7天前

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/89175.html

文章标签

腾讯

文明上网，理性发言，共同做网络文明传播者

提交