近日消息,俄罗斯知名企业Yandex近日宣布了一项重大贡献,即开源其自主研发的大规模语言模型训练工具——YaFSDP。
据官方宣称,这款工具在优化GPU资源利用方面实现了显著突破,相较于当前市面上的同类工具,YaFSDP能够为如Llama 3等大型语言模型的训练过程带来高达26%的加速效果,大幅度缩短模型训练周期,为AI研究与应用领域注入了新的活力,开启了高效能模型训练的新纪元。
据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP 速度提高了 20%,并且在高内存压力条件下表现更佳。
例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。
Yandex 表示,通过优化 GPU 使用率,YaFSDP 可以为开发者和公司节省大量资金 —— 每月可能节省数十万美元。
Yandex 的资深开发人员、YaFSDP 团队成员之一 Mikhail Khruschev 还提到,“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的通用性” 。
文明上网,理性发言,共同做网络文明传播者