华为最近推出的PixArt-\Sigma图像创新生成技术,搭载了先进的DiT架构体系,具备实时输出4K超高清图像的突破能力。
相较于前代产品PixArt-\alpha,该新型模型在图像逼真度层面取得了显著跃升,并且在对文本描述信息的理解与图像生成内容对应性方面实现了重大优化升级,确保了所生成图像与用户输入提示的高度吻合和细节丰富性。
PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过整合更高质量的数据,从“较弱”的基线逐步演变为“较强”的模型,这个过程被称为“弱到强训练”。
PixArt-\Sigma 的进步主要体现在两个方面:高质量的训练数据和高效的 Token 压缩。PixArt-\Sigma 结合了更高质量的图像数据,配对更精确和详细的图像标题,同时在 DiT 框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,促进超高分辨率图像的生成。
由于这些改进,PixArt-\Sigma 以较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如 SDXL 26亿参数)和 SD Cascade(51亿参数)的图像质量和用户提示遵从能力。此外,PixArt-\Sigma 能够生成4K 图像,为创建高分辨率海报和壁纸提供了支持,有效地增强了电影和游戏等行业中高质量视觉内容的制作。
文明上网,理性发言,共同做网络文明传播者