8月23日消息,微软Azure AI语音服务再度升级,推出了令人瞩目的文本到语音虚拟人功能,为开发者解锁了创造多语言生成式AI语音应用的新可能。
这一创新技术能够将简单文本无缝转化为逼真的自然语言视频,极大地丰富了人机交互的维度,为企业和个人用户在内容创作、客户服务等领域带来前所未有的沉浸式体验。
今天,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。
Text to Speech Avatar 具有以下功能:
将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自然的声音。
提供不同的人物预设形象。
形象的声音由 Azure AI 文本转语音生成。
使用批量合成 API 异步或实时合成文本到语音人像视频。
在 Speech Studio 中提供内容创建工具,无需编码即可创建视频内容。
通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。
定价方面,文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。
文明上网,理性发言,共同做网络文明传播者