当前位置: 首页 > 资讯 > 科技 > 字节跳动开源全新AI模型LatentSync:实现唇形同步精准控制
  • 0
  • 0
  • 分享

字节跳动开源全新AI模型LatentSync:实现唇形同步精准控制

字节跳动 2025-01-12 09:03:23 爱吃爆米花

近日消息,字节跳动新近开源了一项名为LatentSync的创新技术。这一技术属于一种端到端的唇同步框架,它是建立在音频条件的潜在扩散模型之上的。值得一提的是,该技术不需要任何中间的运动表示就能够让视频里人物的唇部动作和音频实现精准的同步。

研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。

此外,研究团队还深入研究了 SyncNet 的收敛问题,并通过大量的实证研究,确定了影响 SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在 HDTF 测试集上的准确率从91% 显著提升至94%。由于没有改变 SyncNet 的整体训练框架,这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。

LatentSync 的优势

端到端框架:无需中间运动表示,直接从音频生成同步的唇部动作。

高质量生成:利用 Stable Diffusion 的强大能力,生成动态逼真的说话视频。

时间一致性:通过 TREPA 技术,增强视频帧之间的时间一致性。

SyncNet 优化:解决了 SyncNet 的收敛问题,显著提高了唇同步的准确性。

工作原理

LatentSync 的核心是基于图像到图像的修复技术,需要输入带遮罩的图像作为参考。为了整合原始视频的人脸视觉特征,模型还会输入参考图像。这些输入信息经过通道拼接后,输入到 U-Net 网络中进行处理。

模型使用预训练的音频特征提取器 Whisper 来提取音频嵌入。唇部动作可能受到周围帧音频的影响,因此模型会捆绑多个周围帧的音频作为输入,以提供更多的时间信息。音频嵌入通过交叉注意力层整合到 U-Net 中。

为了解决 SyncNet 需要图像空间输入的问题,模型会先在噪声空间进行预测,然后通过单步方法获得估计的干净潜在空间。研究发现,在像素空间训练 SyncNet 比在潜在空间训练效果更好,这可能是因为 VAE 编码过程中会丢失唇部区域的信息。

训练过程分为两个阶段:第一阶段 U-Net 学习视觉特征,不进行像素空间解码和添加 SyncNet 损失。第二阶段使用解码的像素空间监督方法添加 SyncNet 损失,并使用 LPIPS 损失来提高图像的视觉质量。为了确保模型正确学习时间信息,输入的噪声也需要具有时间一致性,模型采用了混合噪声模型。此外,在数据预处理阶段,还使用了仿射变换来实现人脸正面化。

TREPA 技术

TREPA 通过对齐生成图像序列和真实图像序列的时间表示来提高时间一致性。该方法使用大型自监督视频模型 VideoMAE-v2来提取时间表示。与仅使用图像之间距离损失的方法不同,时间表示可以捕捉图像序列中的时间相关性,从而提高整体时间一致性. 研究发现,TREPA 不仅不会损害唇同步的准确性,反而可以有所提高。

SyncNet 收敛问题

研究发现,SyncNet 的训练损失容易停留在0.69附近,无法进一步下降。通过大量的实验分析,研究团队发现,批次大小、输入帧数和数据预处理方法对 SyncNet 的收敛有显著影响。模型架构也会影响收敛,但影响较小。

实验结果表明,LatentSync 在多个指标上都优于其他最先进的唇同步方法。特别是在唇同步准确性方面,这归功于其优化的 SyncNet 和音频交叉注意层,可以更好地捕捉音频和唇部动作之间的关系。此外,由于采用了 TREPA 技术,LatentSync 的时间一致性也得到了显著提高。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/108777.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换