当前位置：首页 > 资讯 > 科技 > 亚马逊推出全新文本转语音技术：BASE TTS模型革新发声体验

亚马逊推出全新文本转语音技术：BASE TTS模型革新发声体验

亚马逊 2024-02-18 17:00:17 爱吃爆米花

近日，亚马逊 AGI 研究部门的人工智能科研团队成功研发了迄今为止规模最大、参数最为丰富的文本转语音模型。该模型不仅在技术参数上达到了前所未有的高度，而且在训练过程中运用了迄今为止最为庞大的数据集进行深度学习。

团队已在知名预印本平台 arXiv 上发表了一篇详尽的论文，详细阐述了这一创新型文本转语音模型从开发构想到实际训练过程的各项关键步骤与技术突破。

与 ChatGPT 等大型语言模型（LLMs）因其人类化的智能回答问题和创建高水平文档的能力而备受关注不同，人工智能正在逐步应用于其他主流应用。在这一新尝试中，研究人员试图通过增加模型参数的数量和扩充训练基础来改进文本转语音应用的能力。

这一新模型被称为 Big Adaptive Streamable TTS with Emergent abilities（简称为 BASE TTS），拥有98亿参数，并使用了10万小时的录音数据进行训练，其中大部分是英语。该团队还为其提供了其他语言中已知短语的口语单词和短语示例，以使模型在遇到这些短语时能够正确发音，比如 “au contraire” 或 “adios， amigo”。

亚马逊团队还在较小的数据集上对模型进行了测试，希望了解模型何时会出现所谓的新兴特性，即人工智能应用，无论是 LLM 还是文本转语音应用，突然似乎突破到更高层次的智能。他们发现，对于他们的应用程序来说，新兴特性出现在拥有1.5亿参数时。

他们还指出，这种飞跃涉及一系列语言属性，例如使用复合名词，表达情感，使用外语词汇，应用语音附加语和标点，以及在句子中将重点放在正确的单词上提出问题。

该团队表示，他们不会向公众发布 BASE TTS，因为他们担心它可能被不道德地使用，而是计划将其用作学习应用。他们希望应用他们迄今为止所学到的知识，以改进文本转语音应用程序的人类声音质量。

扩展阅读