Transformer的上下文学习能力的来源是什么？

WBOY

发布时间：2023-09-18 08:01:14

1428人浏览过

来源于51CTO.COM

转载

为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习中的主导模型，但人们对于它卓越性能的理论基础却一直研究不足。

最近，谷歌AI、苏黎世联邦理工学院和谷歌DeepMind的研究人员进行了一项新研究，试图揭开谷歌AI中的一些优化算法的秘密。在这项研究中，他们对transformer进行了逆向工程，并找到了一些优化方法。这篇论文名为《揭示transformer中的Mesa优化算法》

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/abs/2309.05858

作者证明，最小化通用自回归损失会产生在 Transformer 的前向传递中运行的基于辅助梯度的优化算法。这种现象最近被称为「mesa 优化（mesa-optimization）」。此外，研究人员发现所得的 mesa 优化算法表现出上下文中的小样本学习能力，与模型规模无关。因此，新的结果对此前大语言模型中出现的小样本学习的原理进行了补充。

研究人员认为，Transformers 的成功是基于其在前向传递中实现的Mesa优化算法的架构偏差：(i) 定义内部学习目标，以及 (ii) 对其进行优化

Transformer的上下文学习能力的来源是什么？

图 1：新假设的说明：优化自回归 Transformer fθ 的权重 θ 会产生在模型前向传播中实现的 mesa 优化算法。作为输入序列 s_1, . 。。， s_t 被处理到时间步 t，Transformer (i) 创建一个由输入 - 目标关联对组成的内部训练集，(ii) 通过结果数据集定义内部目标函数，用于衡量内部模型的性能使用权重 W，(iii) 优化该目标并使用学习的模型生成未来的预测 Transformer的上下文学习能力的来源是什么？。

该研究的贡献包括以下几点：

概括了 von Oswald 等人的理论，并展示了从理论上，Transformers 是如何通过使用基于梯度的方法优化内部构建的目标来自回归预测序列下一个元素的。
通过实验对在简单序列建模任务上训练的 Transformer 进行了逆向工程，并发现强有力的证据表明它们的前向传递实现了两步算法：(i) 早期自注意力层通过分组和复制标记构建内部训练数据集，因此隐式地构建内部训练数据集。定义内部目标函数，(ii) 更深层次优化这些目标以生成预测。
与 LLM 类似，实验表明简单的自回归训练模型也可以成为上下文学习者，而即时调整对于改善 LLM 的上下文学习至关重要，也可以提高特定环境中的表现。
受发现注意力层试图隐式优化内部目标函数的启发，作者引入了 mesa 层，这是一种新型注意力层，可以有效地解决最小二乘优化问题，而不是仅采取单个梯度步骤来实现最优。实验证明单个 mesa 层在简单的顺序任务上优于深度线性和 softmax 自注意力 Transformer，同时提供更多的可解释性。

Transformer的上下文学习能力的来源是什么？

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

下载

在初步的语言建模实验后发现，用 mesa 层替换标准的自注意力层获得了有希望的结果，证明了该层具有强大的上下文学习能力。

基于最近人们的工作表明，经过明确训练来解决上下文中的小样本任务的 transformer 可以实现梯度下降（GD）算法。在这里，作者展示了这些结果可以推广到自回归序列建模 —— 这是训练 LLM 的典型方法。

首先，对于在简单线性动力学上进行训练的Transformer进行分析。在这种情况下，每个序列都由不同的W*生成，以防止跨序列记忆。在这个简单的设定中，研究人员展示了Transformer如何创建mesa数据集，并使用预处理的GD来优化mesa目标

Transformer的上下文学习能力的来源是什么？

进行重写的内容是：我们可以通过训练深度 transformer 来聚合相邻序列元素的 token 结构。有趣的是，这种简单的预处理方法会导致权重矩阵非常稀疏（只有不到 1% 的权重非零），从而产生逆向工程算法

Transformer的上下文学习能力的来源是什么？

对于单层线性自注意力，权重对应一个梯度下降步骤。对于深度Transformer，解释性变得困难。该研究依赖于线性探测并检查隐藏激活是否能够预测自回归目标或预处理输入

有趣的是，两种探测方法的可预测性都会随着网络深度的增加而逐渐提高。这一发现表明模型中隐藏着预处理的 GD。

Transformer的上下文学习能力的来源是什么？

图 2：对经过训练的线性自注意力层进行逆向工程。

该研究发现，在构建中使用所有自由度时，可以完美地拟合训练层，不仅包括学习的学习率 η，还包括一组学习的初始权重 W_0。重要的是，如图 2 所示，学得的 one-step 算法的性能仍然远远优于单个 mesa 层。

在简单的权重设置下，我们可以注意到，通过基础优化很容易发现，该层可以最优地解决此研究任务。这个结果证明了硬编码归纳偏差对于mesa优化是有利的

凭借对多层案例的理论见解，先分析深度线性和 softmax 仅注意 Transformer。作者根据 4 通道结构设置输入格式， Transformer的上下文学习能力的来源是什么？，这对应于选择 W_0 = 0。

与单层模型一样，作者在训练模型的权重中看到了清晰的结构。作为第一个逆向工程分析，该研究利用这个结构并构建一个算法（RevAlg-d，其中 d 表示层数），每个层头包含 16 个参数（而不是 3200 个）。作者发现这种压缩但复杂的表达式可以描述经过训练的模型。特别是，它允许以几乎无损的方式在实际 Transformer 和 RevAlg-d 权重之间进行插值

虽然 RevAlg-d 表达式解释了具有少量自由参数的经过训练的多层 Transformer，但很难将其解释为 mesa 优化算法。因此，作者采用线性回归探测分析（Alain & Bengio，2017；Akyürek et al.，2023）来寻找假设的 mesa 优化算法的特征。

在图3中展示的深度线性自注意力Transformer上，我们可以观察到两个探针都能够进行线性解码，并且随着序列长度和网络深度的增加，解码性能也增加。因此，我们发现了一种基础优化算法，该算法在原始的mesa-objective Lt (W)的基础上逐层下降，同时改善了mesa优化问题的条件数。这导致mesa-objective Lt (W)快速下降。此外，我们还可以观察到随着深度增加，性能显著提高

通过对数据进行更好的预处理，可以逐步（跨层）优化自回归目标函数 Lt (W)，因此可以认为快速下降是通过这种优化实现的

Transformer的上下文学习能力的来源是什么？