当前位置: 首页 > 资讯 > 科技 > 智谱AI公开CogVideoX-5B视频生成模型,RTX 3060显卡亦能驾驭
  • 0
  • 0
  • 分享

智谱AI公开CogVideoX-5B视频生成模型,RTX 3060显卡亦能驾驭

智谱AI 2024-08-28 10:12:48 爱吃爆米花

8月28日消息,智谱AI宣布开源其升级版视频生成模型CogVideoX-5B,相较于早前的CogVideoX-2B,此次发布的模型在视频生成的质量与视觉表现上实现了显著提升,标志着AI视频生成技术的又一重要进步,为内容创作者和研究人员提供了更加强大的工具,进一步拓宽了AI技术在多媒体内容创作领域的应用前景。

官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:

3D causal VAE:通过压缩视频数据到 latent space,并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer:将文本 embedding 和视频 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/81765.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换