近日,北京大学携手快手的人工智能研究团队确实取得了显著的进展,他们共同研发的创新性框架“VideoTetris”在复杂视频生成领域引起了广泛关注。这项技术通过模拟拼图游戏般的精密组装过程,能够将多种元素和细节巧妙融合,进而创造出既精细又富含大量指令细节的高质量视频内容。
VideoTetris框架首次定义了组合视频生成任务,包括两个子任务:
1: 跟随复杂组合指令的视频生成;
2:跟随递进的组合式多物体指令的长视频生成。团队发现,几乎所有现有的开源模型和商用模型都未能生成正确的视频。例如,输入"左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩",结果生成的视频往往融合了两个物体信息,显得怪异。
相比之下,VideoTetris能够成功保留所有的位置信息和细节特征。在长视频生成中,它支持更复杂的指令,如"从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上"。生成的视频顺序与输入指令一致,两只松鼠还能自然地交换食物。
VideoTetris框架采用了时空组合扩散方法。它首先将文本提示按时间解构,为不同视频帧指定不同的提示信息。然后在每一帧上进行空间维度的解构,将不同物体对应到不同的视频区域。最后,通过时空交叉注意力进行组合,实现高效的组合指令生成。
为了生成更高质量的长视频,团队还提出了一种增强的训练数据预处理方法,使长视频生成更加动态稳定。此外,引入了参考帧注意力机制,使用原生VAE对之前的帧信息编码,区别于其他模型使用CLIP编码的方式,从而获得更好的内容一致性。
优化后的结果是,长视频不再有大面积偏色现象,能够更好地适应复杂指令,生成的视频更具有动感,更符合自然。团队还引入了新的评测指标VBLIP-VQA和VUnidet,首次将组合生成评价方法扩展到视频维度。
实验测试表明,在组合视频生成能力上,VideoTetris模型的表现超过了所有开源模型,甚至是商用模型如Gen-2和Pika。据悉,该代码将完全开源。
文明上网,理性发言,共同做网络文明传播者