当前位置：首页 > 资讯 > 科技 > 谷歌AI语音技术重大升级：3秒生成2分钟对话，革新未来人机交互体验

谷歌AI语音技术重大升级：3秒生成2分钟对话，革新未来人机交互体验

谷歌（Google） 2024-11-03 10:01:11 爱吃爆米花

近日消息，谷歌宣布了一项革新性的语音生成技术，这项新技术能在短短3秒内创造出长达2分钟的流畅自然对话。它不仅提升了多说话人间的语音连续性和音质，而且已经被应用于包括Gemini Live和Project Astra在内的多个谷歌产品中。随着这一技术的应用，全球范围内人们与数字助手及AI工具之间的互动方式正经历着显著变化。

在过去几年中，谷歌一直专注于音频生成领域的研究。他们开发的模型可以通过文本、节奏控制和特定声音等多种输入方式，创建高质量、自然的语音。最近，谷歌与内部多个团队合作，推出了两项重要功能:NotebookLM音频概述可以将上传的文档转换为生动的对话形式;Illuminate则能生成关于研究论文的正式AI讨论，让专业知识更容易理解和消化。

这些突破建立在谷歌之前的多项研究成果基础之上。从SoundStream神经音频编解码器，到AudioLM音频语言建模框架，再到能生成30秒多人对话的SoundStorm，谷歌在语音生成领域不断创新。最新的技术突破使用了更高效的语音编解码器，可以在每秒600比特的低比特率下压缩音频，同时保持输出质量。

为了实现这一技术突破，谷歌开发了专门的Transformer架构，可以高效处理信息层次结构。模型首先在数十万小时的语音数据上进行预训练，然后在高质量对话数据集上进行微调，这些数据包含了真实对话中的语气停顿等自然特征。为了确保技术的负责任使用，谷歌还整合了SynthID技术，为AI生成的音频内容添加水印。

展望未来，谷歌正致力于提升模型的流畅度、音质，并增加更细致的控制功能。结合Gemini系列模型，这项技术有望在教育体验提升和内容可访问性方面发挥重要作用，为语音技术带来更多可能性。

这项技术的重要性不仅在于其性能的提升，更在于它为人机交互开启了新的篇章。通过将复杂的技术创新转化为自然、直观的交互方式，谷歌正在为下一代数字体验奠定基础。

扩展阅读