近日消息,生数科技在中关村论坛未来人工智能先锋峰会上,与清华大学联手揭晓了国内首个人工智能视频大模型——Vidu,该模型标示着国内在长视频生成技术上取得突破性进展,具备前所未有的长时间、高度连贯性及动态复杂度处理能力。
Vidu的亮相立即吸引了科技界和媒体的广泛关注,被誉为国内视频生成领域达到国际Sora级别标准的里程碑式成就。
根据官方描述,Vidu 模型融合 Diffusion 与 Transformer,开创性创建了 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。
官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。
官方表示 Vidu 不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
Vidu 是自 Sora 发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。
Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。
其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与 Transformer 融合的架构。
2023 年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证。
文明上网,理性发言,共同做网络文明传播者