10月12日消息,快手科技携手北京大学及北京邮电大学的研究团队共同发布了创新成果——Pyramid Flow 文本驱动视频生成模型。
这一突破性技术允许用户仅需提供文本描述,系统就能自动生成长度达10秒钟、展现细腻视觉效果的视频片段,其规格达到了1280x768像素分辨率,播放流畅度为每秒24帧,标志着视频内容创作进入了一个全新的智能化时代。
Pyramid Flow 文生视频模型主要面向开发者、艺术家和创作者等,提供更高效、更灵活的视频生成解决方案,目前已经在 Hugging Face 平台上线,并完全开源。
查询官方介绍,附上 Pyramid Flow 的核心特点如下:
高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。
快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
开源和商业使用:Pyramid-Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。
文明上网,理性发言,共同做网络文明传播者