当前位置：首页 > 资讯 > 科技 > 清华与微软联合突破：Differential Transformer革新AI聚焦能力，精度跃升30%以上

清华与微软联合突破：Differential Transformer革新AI聚焦能力，精度跃升30%以上

清华大学 2024-10-13 09:31:03 爱吃爆米花

近日，大语言模型（LLM）领域取得了飞速进展，Transformer架构作为其中的佼佼者，其价值不容小觑。Transformer模型的精髓，在于其创新的注意力机制，它如同一位高明的图书管理员，能从浩瀚的文字海洋中筛选出最关键的信息片段。

尽管如此，Transformer偶尔也会面临挑战，正如我们在信息爆炸的环境中寻找 needle in a haystack（针尖大海捞针），即便拥有高级筛选工具，也可能因海量冗余数据而影响其高效的识别与处理能力。

这种注意力机制产生的无关信息，在论文中被称为注意力噪音。想象一下，你想在文件中找一个关键信息，结果Transformer模型的注意力却分散到各种无关的地方，就像一个近视眼，看不清重点。

为了解决这个问题，这篇论文提出了Differential Transformer （DIFF Transformer）。这个名字很高级，但原理其实很简单，就像降噪耳机一样，通过两个信号的差异来消除噪音。

Differential Transformer 的核心是差分注意力机制。它把查询和键向量分成两组，分别计算两个注意力图，再将这两个图相减，得到最终的注意力分数。这个过程就像用两台相机分别拍摄同一个物体，然后将两张照片叠加，差异的地方就会凸显出来。

通过这种方式，Differential Transformer 能够有效地消除注意力噪音，让模型更加专注于关键信息。就好比你戴上降噪耳机，周围的噪音消失了，你就能更清晰地听到想要的声音。

论文中进行了一系列实验，证明了Differential Transformer 的优越性。首先，它在语言建模方面表现出色，只需要Transformer65% 的模型大小或训练数据，就能达到类似的效果。

其次，Differential Transformer 在长文本建模方面也更胜一筹，能够有效地利用更长的上下文信息。

更重要的是，Differential Transformer 在关键信息检索、减少模型幻觉和上下文学习方面表现出显著优势。

在关键信息检索方面，Differential Transformer 就像一个精准的搜索引擎，能够在海量信息中准确地找到你想要的内容，即使是在信息极其复杂的场景下，也能保持高准确率。

在减少模型幻觉方面，Differential Transformer 能够有效地避免模型“胡说八道”，生成更准确、更可靠的文本摘要和问答结果。

在上下文学习方面，Differential Transformer 更像是学霸，能够快速地从少量样本中学习新知识，而且学习效果也更加稳定，不像Transformer那样容易受到样本顺序的影响。

此外，Differential Transformer 还能有效地降低模型激活值中的异常值，这意味着它对模型量化更友好，可以实现更低比特的量化，从而提高模型的效率。

总而言之，Differential Transformer 通过差分注意力机制有效地解决了Transformer模型的注意力噪音问题，并在多个方面取得了显著的改进。它为大语言模型的发展提供了新的思路，未来将会在更多领域发挥重要作用。

扩展阅读

清华大学发布AutoDroid - V2：移动设备AI自动化控制的创新性变革

清华大学 01-03 09:20

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/94593.html

文章标签

微软

文明上网，理性发言，共同做网络文明传播者

提交