近日消息,当下企业对大型语言模型(LLMs)的应用日益广泛,在这个过程中,怎样提高模型的知识准确性并且减少幻觉现象已经成为一项极为关键的挑战。Meta AI的研究人员在一篇新发表的论文里提出了“可扩展记忆层”这一概念,这个概念说不定能够为解决这一问题提供有效的办法。
可扩展记忆层的核心思想是在不增加推理时计算资源的情况下,向 LLMs 中添加更多参数,从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。
传统的语言模型使用 “密集层” 来编码大量信息。在密集层中,所有参数在推理时几乎都是同时激活的,能够学习复杂的函数,但这需要额外的计算和能量资源。而对于简单的事实知识,使用具有关联记忆架构的简单层会更加高效和易于理解,这就是记忆层的作用。记忆层通过简单的稀疏激活和键值查找机制来编码和检索知识。尽管稀疏层在内存占用上高于密集层,但其同时仅使用少量参数,从而提高了计算效率。
虽然记忆层已经存在多年,但在现代深度学习架构中却鲜有应用,主要是因为它们并未针对当前硬件加速器进行优化。当前前沿的 LLMs 通常采用某种形式的 “专家混合” 架构,这与记忆层有相似之处。专家混合模型由多个专门化的小型专家组件构成,通过路由机制在推理时激活特定的专家。
为了克服记忆层在计算上轻便但内存占用大的挑战,Meta 的研究人员提出了若干改进措施,使其能够在大规模应用中实现可行性。他们为记忆层配置了并行化,能够在多个 GPU 上存储数百万个键值对,同时不会减慢模型的运行速度。此外,他们还为处理高内存带宽操作开发了特定的 CUDA 内核,并实现了参数共享机制,允许多个记忆层共享一组内存参数。
通过对 Llama 模型的修改,将一个或多个密集层替换为共享记忆层,研究人员对记忆增强模型进行了测试。他们的研究发现,记忆模型在多个任务中表现优异,特别是在需要事实知识的任务上,性能明显超过密集基线,甚至能与使用2到4倍计算资源的模型竞争。
文明上网,理性发言,共同做网络文明传播者