当前位置: 首页 > 资讯 > 科技 > 智谱清言融合创新:CogView3-Plus文生图模odel新功能盛大登场
  • 0
  • 0
  • 分享

智谱清言融合创新:CogView3-Plus文生图模odel新功能盛大登场

智谱AI 2024-10-19 10:41:38 爱吃爆米花

近日消息,智谱技术研究团队对外宣布了一项重大进展,他们正式开放了先进的文本生成图像模型 CogView3 及其增强版 CogView3-Plus-3B 的源代码。

这一创新成果已成功整合进他们的旗舰应用“智谱清言”,标志着用户现在可以亲身体验到由尖端AI技术支持的图像创造功能,进一步推动了AI技术在创意领域的广泛应用。

据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:

第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。

第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。

第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/95143.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换