当前位置: 首页 > 资讯 > 软件 > 阿里云通义App创新发布EMO模型:照片融合音频,轻松打造个性歌唱视频
  • 0
  • 0
  • 分享

阿里云通义App创新发布EMO模型:照片融合音频,轻松打造个性歌唱视频

通义千问 2024-04-26 10:14:49 爱吃爆米花

阿里云近日宣布,通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

EMO革新性音频导向肖像视频合成技术,由阿里巴巴智能计算研究院匠心研发,该系统凭借其独到的Emote Portrait Alive框架。

实现了仅凭一张静态人物照片与一段语音素材,即能精准构建出富含情感色彩的面部表情及多样化的头部动态,从而生成高度逼真且生动的个性化视频内容。

据介绍,通义 App 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等,但目前暂未不开放自定义音频。

EMO 的主要特点:

音频驱动的视频生成:EMO 能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或 3D 面部模型。

高表现力和逼真度:EMO 生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。

无缝帧过渡:EMO 确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。

身份保持:通过 FrameEncoding 模块,EMO 能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。

稳定的控制机制:EMO 采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。

灵活的视频时长:EMO 可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。

跨语言和跨风格:EMO 的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和 3D 风格,这使得 EMO 能够适应不同的文化和艺术风格。

所 属 资 源
通义千问
通义千问
应用 / 工具 /
阿里巴巴自研AI大模型
去下载
来源:历趣
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/38445.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换