当前位置: 首页 > 资讯 > 科技 > 微软震撼发布VASA-1人工智能架构:实时构建512x512高清40帧流畅口形同步肖像影片
  • 0
  • 0
  • 分享

微软震撼发布VASA-1人工智能架构:实时构建512x512高清40帧流畅口形同步肖像影片

微软(Microsoft) 2024-04-22 10:18:20 爱吃爆米花

近日,微软震撼发布VASA-1图像驱动视频合成系统:仅凭单幅肖像与语音片段,即刻营造出无可挑剔之口形同步演说画面,尤其在面部情绪传达及头部微动仿真上展现出卓越自然度。

据悉,目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可能的面部动态,包括嘴唇动作、表情、眼睛注视和眨眼等行为均视为单一潜在变量(即一次生成整个具有高度细节的人脸),号称能够即时生成 512×512 分辨率 40 FPS 的视频。

微软还利用了 3D 技术辅助标记人脸面部特征,并额外设计了损失函数,号称能够让 VASA-1 不仅能够生成高品质的面部视频,还能够有效地捕捉和重现面部 3D 结构。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/36784.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换