4月19日消息,微软亚洲研究院再度震撼业界,其最新科研成果——VASA-1模型正式揭晓。该突破性技术使得仅凭一张静态人物肖像图像及相应的一小段语音样本,即可实现令人惊叹的视觉与听觉融合效果:画面中的人物仿佛被赋予生命,能够栩栩如生地开口说话,将二维图像瞬间跃升为互动式的视听体验。
VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。
研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。
研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。
文明上网,理性发言,共同做网络文明传播者