当前位置：首页 > 资讯 > 科技 > 微软VASA-1革新视音频融合：静态图遇灵动音，即刻唤醒生动短视频

微软VASA-1革新视音频融合：静态图遇灵动音，即刻唤醒生动短视频

微软（Microsoft） 2024-04-19 13:23:40 爱吃爆米花

4月19日消息，微软亚洲研究院再度震撼业界，其最新科研成果——VASA-1模型正式揭晓。该突破性技术使得仅凭一张静态人物肖像图像及相应的一小段语音样本，即可实现令人惊叹的视觉与听觉融合效果：画面中的人物仿佛被赋予生命，能够栩栩如生地开口说话，将二维图像瞬间跃升为互动式的视听体验。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

扩展阅读

微软公测Translator Pro翻译应用：消除职场语言障碍，支持本地运行

微软（Microsoft）昨天

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/36487.html

文章标签

微软

文明上网，理性发言，共同做网络文明传播者

提交