史上超全Transformer合集！LeCun力推：给60个模型建目录，哪篇论文你错过了？

WBOY

发布时间：2023-04-11 21:22:01

1209人浏览过

来源于51CTO.COM

转载

如果说过去几年是什么在支撑着大规模模型的发展，那一定是Transformer了！

基于Transformer，大量模型在各个领域犹如雨后春笋般不断涌现，每个模型都有不同的架构，不同的细节，以及一个不容易解释的名字。

最近有作者对近几年发布的所有流行的Transformer模型进行了一次全面的分类和索引，尽可能提供一个全面但简单的目录（catalog），文中包括对Transformer创新的简介，以及发展脉络梳理。

论文链接：https://arxiv.org/pdf/2302.07730.pdf

图灵奖得主Yann LeCun表示认可。

文章作者Xavier (Xavi) Amatriain于2005年博士毕业于西班牙庞培法布拉大学，目前是LinkedIn工程部副总裁，主要负责产品人工智能战略。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

什么是Transformer？

Transformer是一类深度学习模型，具有一些独特的架构特征，最早出现在谷歌研究人员于2017年发表的著名的「Attention is All you Need」论文中，该论文在短短5年内积累了惊人的38000次引用。

Transformer架构也属于编码器-解码器模型（encoder-decoder），只不过在此之前的模型，注意力只是其中的机制之一，大多都是基于LSTM（长短时记忆）和其他RNN（循环神经网络）的变体。

提出Transformer的这篇论文的一个关键见解如标题所说，注意力机制可以作为推导输入和输出之间依赖关系的唯一机制，这篇论文并不打算深入研究Transformer架构的所有细节，感兴趣的朋友可以搜索「The Illustrated Transformer」博客。

博客链接：https://jalammar.github.io/illustrated-transformer/

下面只简要地描述最重要的一些组件。

编码器-解码器架构

一个通用的编码器/解码器架构由两个模型组成，编码器接受输入并将其编码为一个固定长度的向量；解码器接收该向量并将其解码为输出序列。

对编码器和解码器进行联合训练以最小化条件对数似然。训练完成后，编码器/解码器就可以根据给定输入序列的生成一个输出，或者可以给一对输入/输出序列打分。

在最初的Transformer架构下，编码器和解码器都有6个相同的层，在这6层中的每一层，编码器有两个子层：一个多头注意层，和一个简单的前馈网络，每个子层都有一个残差连接和一个层归一化。

编码器的输出大小为512，解码器增加了第三个子层，即在编码器输出上的另一个多头注意层。此外，解码器中的另一个多头层被mask掉，以防止对后续位置应用注意力，造成信息泄露。

注意力机制

从上面的描述中可以看出，模型结构中唯一「奇特」的元素是多头的注意力，也正是该模型的全部力量所在。

注意力函数是query和一组key-value pairs到输出之间的映射，输出的计算为数值的加权和，其中分配给每个数值的权重是由query与相应的key的compatibility函数计算的。

Transformer使用多头注意力（multi-head attention），即对一组注意力函数的并行计算，也称为缩放点积注意力。

与递归和卷积网络相比，注意力层有几个优势，比较重要的是其较低的计算复杂性和较高的连接性，对学习序列中的长期依赖关系特别有用。

Transformer可以做什么？为什么流行起来了？

最初的Transformer是为语言翻译而设计的，主要是从英语翻译到德语，但是初版论文的实验结果已经表明，该架构可以很好地推广到其他语言任务。

这一特殊的趋势很快就被研究界注意到了。

在接下来的几个月里，任何与语言相关的ML任务的排行榜都完全被某个版本的Transformer架构所占据，比如问答任务Squad很快就被各种Transformer模型屠榜了。

Transofrmer能够如此迅速地占领大多数NLP排行榜的关键原因之一是：它们能够快速适应其他任务，也就是迁移学习；预先训练好的Transformer模型可以非常容易和迅速地适应它们没有被训练过的任务，相比其他模型有巨大的优势。

作为一个ML从业者，你不再需要在一个巨大的数据集上从头训练一个大型模型，只需要在手头任务上重新使用预训练过的模型，也许只是用一个小得多的数据集对其稍作调整。

用来使预训练的模型适应不同任务的具体技术是所谓的微调（fine-tuning）。

事实证明，Transformer适应其他任务的能力是如此之强，虽然它们最初是为语言相关的任务而开发的，但它们很快就对其他任务有用了，从视觉或音频和音乐应用一直到下棋或做数学。

当然，如果不是因为有无数的工具，使任何能写几行代码的人都能随时使用这些工具，所有这些应用就不可能实现。

Transformer不仅很快被整合到主要的人工智能框架中（即Pytorch和TensorFlow），还有一些完全为Transformer而生的公司。

Huggingface，一家到今天为止已经筹集了超过6000万美元的创业公司，几乎完全是围绕着将他们的开源Transformer库商业化的想法而建立的。

GPT-3是OpenAI在2020年5月推出的Transformer模型，是他们早期GPT和GPT-2的后续版本。该公司在一份预印本中介绍了该模型，引起了很大的轰动，论文中声称该模型非常强大，以至于他们没有资格向世界发布。

而且，OpenAI不仅没有发布GPT-3，而且通过和微软之间的一个非常大的伙伴关系实现了商业化。

现在，GPT-3为300多个不同的应用程序提供底层技术支持，并且是OpenAI商业战略的基础。对于一个已经获得超过10亿美元资金的公司来说，这是很重要的。

RLHF

从人类反馈（或偏好）中强化学习，又称RLHF（或RLHP），最近已经成为人工智能工具箱的一个巨大补充。

这个概念最早来自2017年的论文「来自人类偏好的深度强化学习」，但最近它被应用于ChatGPT和类似的对话智能体中，取得了相当好的效果，又引起了大众的关注。

文中的想法是非常简单的，一旦语言模型被预训练后，就可以对对话产生不同的回应，并让人类对结果进行排名，可以使用这些排名（又称偏好或反馈）利用强化学习机制来训练奖励。

扩散模型Diffusion

SlidesAI

使用SlidesAI的AI在几秒钟内创建演示文稿幻灯片

下载

扩散模型已经成为图像生成的新的SOTA，大有取代GANs（生成对抗网络）的趋势。

扩散模型是一类经过训练的变分推理（varitional inference）的潜变量模型，在实践中的意思就是训练一个深度神经网络来对用某种噪声函数模糊的图像进行去噪。

以这种方式训练的网络实际上是在学习这些图像所代表的潜空间。

看完介绍，快开启Transformer的回溯之旅吧！

Clawdbot— 开源AI个人助手，本地部署实现自然语言控制设备

混元图像3.0图生图— 腾讯推出的图像生成与编辑模型

告别大众脸！2026年超火的AI生成头像玩法：打造赛博朋克、复古油画风（附指令公式）

微信头像换新｜3步用AI生成头像：上传照片→选风格→一键导出（附操作步骤）

AI生成头像可控性有多强？实测8款工具的“自定义”功能（调整表情/更换背景/指定服饰）

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

766

2026.01.21

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

Python 深度学习框架与TensorFlow入门

本专题深入讲解 Python 在深度学习与人工智能领域的应用，包括使用 TensorFlow 搭建神经网络模型、卷积神经网络（CNN）、循环神经网络（RNN）、数据预处理、模型优化与训练技巧。通过实战项目（如图像识别与文本生成），帮助学习者掌握如何使用 TensorFlow 开发高效的深度学习模型，并将其应用于实际的 AI 问题中。

2026.01.07

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

432

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

2025.12.22

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27