当前位置：首页 > 资讯 > 科技 > 谷歌重磅发布Titans系列AI模型：融合长短记忆与注意力机制

谷歌重磅发布Titans系列AI模型：融合长短记忆与注意力机制

谷歌（Google） 2025-01-21 09:44:07 爱吃爆米花

近日消息，科技界传来一则令人振奋的消息，谷歌研究院官方发表了一则重要公告，详细公布了备受瞩目的“Titans”系列模型架构。这一全新的架构，宛如科技领域的一颗璀璨明珠，吸引了众多目光。

目前业界流行的 Transformer 模型架构虽然在大多数场景表现优秀，但其上下文窗口（Window）长度的限制，通常仅为几千到几万个 Token，这使得它们在处理长文本、多轮对话或需要大规模上下文记忆的任务中，往往无法保持语义连贯性和信息准确性。

而谷歌这一 Titans 系列模型架构通过引入深度神经长期记忆模块（Neural Long-Term Memory Module）有效解决了相应问题，其设计灵感号称来自人类的记忆系统，结合了短期记忆的快速反应与长期记忆的持久特性，并通过注意力机制来着重执行当前的上下文（着重于用户即时输入的提示词，并保留对于以往提示词的准确记忆）。

参考论文获悉，Titans 具有三种架构设计变体，分别是 Memory as a Context（MAC）、Memory as a Gate（MAG）和 Memory as a Layer（MAL），可以根据不同的任务需求整合短期与长期记忆。其中“MAC”架构变体将长期记忆作为上下文的一部分，允许注意力机制动态结合历史信息与当前数据，适合处理需要详细历史上下文的任务。“MAG”架构变体则根据任务需求，调整实时数据与历史信息的重要性比例，专注于当前最相关的信息。

谷歌重点强调了“MAL”架构变体，该架构主要将记忆模块设计为深度网络的一层，也就是从模型设计层面，直接将用户的历史记录和现在输入的上下文内容进行固定压缩，之后交由模型的注意力模块处理，因此效率相对较高，但输出内容效果不如“MAC”和“MAG”变体。

谷歌声称，Titans 系列模型架构在长序列处理任务中的表现明显优于现有模型，无论是语言建模还是时间序列预测，Titans 在准确性和效率上都展现了“压倒性优势”，甚至在某些场景中超越了如 GPT-4 等具有数十倍参数的模型。

扩展阅读