近年来,训练大型语言模型(LLM)的花费和复杂程度不断攀升,这一情况导致只有为数不多的大型科技公司才有能力承担相应的计算资源。然而,谷歌近期推出了一种被命名为SALT(小模型辅助大模型训练)的新型方法,这个创新之举极有可能给AI训练的格局带来根本性的变革。
根据谷歌研究和 DeepMind 的最新研究论文,“一点帮助就能走得更远:通过利用小型语言模型实现高效的 LLM 训练”,SALT 引入了一种新的两阶段训练过程。这种方法不仅高效,而且更具实用性,改变了我们以往的训练方式。
SALT 的第一阶段是知识蒸馏。在这一阶段中,小型语言模型(SLM)充当教师,将其理解知识传递给更大的模型。小型模型通过 “软标签” 来分享其学习到的知识,帮助大型模型在学习的初期掌握基础概念。这个阶段尤其适用于小型模型在学习区域具有较强预测信心的 “简单” 任务。
第二阶段是自我监督学习。大型模型在这一阶段开始独立学习,专注于掌握更复杂的模式和挑战性任务。这个转变需要经过精心设计的策略,包括线性衰减和线性比例衰减,这确保了大型模型能够平稳过渡,逐步减少对小型模型的依赖。
谷歌研究人员在实验中发现,使用一个15亿参数的小型模型训练一个28亿参数的大型模型,在 “堆栈数据集” 上的训练时间缩短了28%。在经过微调后,大型模型在数学问题的准确率从31.84% 提升至34.87%,阅读理解的准确率也从63.7% 提高到67%。这种新方法不仅提升了训练效率,还在性能上取得了显著进步。
SALT 的出现有望降低 AI 开发的门槛,使得许多原本受限于资源的小型研究机构和公司也能参与到 AI 模型的开发中。研究和开发的机会将更加普及,可能会催生出更多独特和专业化的 AI 解决方案,带动相关领域的创新与应用。
文明上网,理性发言,共同做网络文明传播者