当前位置：首页 > 资讯 > 软件 > 阿里云通义App创新发布EMO模型：照片融合音频，轻松打造个性歌唱视频

阿里云通义App创新发布EMO模型：照片融合音频，轻松打造个性歌唱视频

通义千问 2024-04-26 10:14:49 爱吃爆米花

阿里云近日宣布，通义实验室研发的 AI 模型 ——EMO 正式上线通义 App，并开放给所有用户免费使用。借助这一功能，用户可以在歌曲、热梗、表情包中任选一款模板，然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

EMO革新性音频导向肖像视频合成技术，由阿里巴巴智能计算研究院匠心研发，该系统凭借其独到的Emote Portrait Alive框架。

实现了仅凭一张静态人物照片与一段语音素材，即能精准构建出富含情感色彩的面部表情及多样化的头部动态，从而生成高度逼真且生动的个性化视频内容。

据介绍，通义 App 首批上线了 80 多个 EMO 模板，包括热门歌曲《上春山》《野狼 Disco》等，还有网络热梗“钵钵鸡”“回手掏”等，但目前暂未不开放自定义音频。

EMO 的主要特点：

音频驱动的视频生成：EMO 能够根据输入的音频（如说话或唱歌）直接生成视频，无需依赖于预先录制的视频片段或 3D 面部模型。

高表现力和逼真度：EMO 生成的视频具有高度的表现力，能够捕捉并再现人类面部表情的细微差别，包括微妙的微表情，以及与音频节奏相匹配的头部运动。

无缝帧过渡：EMO 确保视频帧之间的过渡自然流畅，避免了面部扭曲或帧间抖动的问题，从而提高了视频的整体质量。

身份保持：通过 FrameEncoding 模块，EMO 能够在视频生成过程中保持角色身份的一致性，确保角色的外观与输入的参考图像保持一致。

稳定的控制机制：EMO 采用了速度控制器和面部区域控制器等稳定控制机制，以增强视频生成过程中的稳定性，避免视频崩溃等问题。

灵活的视频时长：EMO 可以根据输入音频的长度生成任意时长的视频，为用户提供了灵活的创作空间。

跨语言和跨风格：EMO 的训练数据集涵盖了多种语言和风格，包括中文和英文，以及现实主义、动漫和 3D 风格，这使得 EMO 能够适应不同的文化和艺术风格。

扩展阅读

通义2024年轻人AI使用趋势报告：85、90后AI关注比例节节高

通义千问 2024-12-31 16:09

所属资源

通义千问

应用 / 工具 /

阿里巴巴自研AI大模型

去下载

来源：历趣

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/38445.html

文章标签

通义千问

文明上网，理性发言，共同做网络文明传播者

提交

暂无评论内容