6月6日消息,Stability AI在稳固其Stable Diffusion文生图模型的领先地位后,持续探索技术边界,现已进军音频领域。他们震撼发布了Stable Audio Open,这一突破性的工具能根据用户提供的关键词提示,神奇地生成高保真度的音频片段,开创了音频创作的新纪元。
Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。
Stable Audio Open 目前已经开源,据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。
Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。
Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。
文明上网,理性发言,共同做网络文明传播者