当前位置: 首页 > 资讯 > 科技 > 智谱AI开源「清影」,引领视频生成新纪元:CogVideoX模型登场
  • 0
  • 0
  • 分享

智谱AI开源「清影」,引领视频生成新纪元:CogVideoX模型登场

智谱AI 2024-08-10 10:33:55 爱吃爆米花

近日消息,智谱AI最近宣布开源其尖端的视频生成模型CogVideoX,此举致力于加速视频生成技术的进步及广泛应用。CogVideoX模型依托于先进的大规模模型技术框架,其性能足以满足商业领域应用的高标准要求,开放源代码的决策有望激发创新,促进该技术在多个行业中的实际运用和发展。

目前开源的CogVideoX-2B版本在FP-16精度下的推理仅需18GB显存,微调则需要40GB显存,使得单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。

CogVideoX模型采用了3D变分自编码器(3D VAE)技术,通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在空间正则化器,通过时间因果卷积确保了信息的因果性。此外,使用专家Transformer技术处理编码后的视频数据,结合文本输入生成高质量的视频内容。

为了训练CogVideoX模型,智谱AI开发了一套筛选高质量视频数据的方法,排除了过度编辑、运动不连贯等问题视频,确保了模型训练的数据质量。同时,通过从图像字幕生成视频字幕的管道,解决了视频数据缺乏文本描述的问题。

在性能评估方面,CogVideoX在多个指标上表现优异,包括人类动作、场景、动态程度等,以及专注于视频动态特性的评估工具。智谱AI将继续探索视频生成领域的创新,包括新型模型架构、视频信息压缩和文本视频内容融合等方面。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/73521.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换