Transformer核心工作流分五步:一、输入经分词、词嵌入与正弦位置编码;二、多头自注意力计算Q/K/V并加权聚合;三、前馈网络扩展-激活-压缩维度;四、编码器层含残差连接与LayerNorm;五、解码器用掩码自注意与编码器-解码器注意。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您刚接触深度学习领域,希望理解当前主流AI模型的底层逻辑,则可能对Transformer架构的工作流感到陌生。以下是帮助您快速掌握其核心工作流的步骤:
一、理解输入表示与词嵌入
Transformer不直接处理原始文本,而是将每个词(或子词)映射为固定维度的向量,这一过程称为词嵌入。位置编码则被叠加在词嵌入上,以提供序列顺序信息,弥补模型本身无固有顺序感知能力的缺陷。
1、将输入句子按分词器(如WordPiece或Byte Pair Encoding)切分为token序列。
2、查表获取每个token对应的嵌入向量,形成形状为[序列长度, 嵌入维度]的矩阵。
3、生成对应的位置编码向量矩阵,其值由正弦和余弦函数计算得出,与嵌入矩阵相加。
二、执行多头自注意力机制
自注意力允许模型在处理每个token时,动态关注输入序列中所有其他token的相关性权重;多头设计则通过并行多个独立注意力子空间,增强模型捕获不同类型关系的能力。
1、对嵌入+位置编码矩阵分别线性投影三次,得到查询(Q)、键(K)、值(V)矩阵。
2、计算Q与K转置的点积,除以根号下头维度,再经Softmax归一化为注意力权重。
3、用注意力权重加权求和V矩阵,得到单头输出。
4、拼接所有头的输出,并通过一次线性变换完成多头整合。
三、应用前馈神经网络层
每个注意力子层后接一个两层全连接前馈网络,用于对每个位置独立进行非线性变换,提升模型表达能力,且不共享参数,保持位置间独立性。
1、将多头注意力输出送入第一个线性层,将其维度扩展至中间隐藏层大小(通常为嵌入维度的四倍)。
2、应用GELU或ReLU激活函数引入非线性。
3、通过第二个线性层将维度还原至原始嵌入维度。
四、堆叠编码器层并引入残差连接与层归一化
单个编码器层包含自注意力子层与前馈子层,每个子层外围均包裹残差连接与层归一化,确保梯度稳定传播并加速训练收敛。
1、将输入X传入自注意力子层,计算Attention(X),再执行X + Attention(X)。
2、对相加结果做LayerNorm操作,得到归一化后的Z1。
3、将Z1传入前馈网络FFN(Z1),再执行Z1 + FFN(Z1)。
4、对最终结果做LayerNorm,输出该层编码器的特征表示。
五、解码器中的掩码自注意力与编码器-解码器注意力
解码器需防止未来token泄露,因此在自注意力中使用上三角掩码;同时引入编码器-解码器注意力,使解码过程能聚焦于编码器输出的关键上下文信息。
1、对解码器输入执行掩码自注意力:构造上三角为负无穷的掩码矩阵,使Softmax后未来位置权重为零。
2、将掩码自注意力输出作为查询(Q),编码器最终输出作为键(K)和值(V),执行跨模态注意力计算。
3、将跨模态注意力输出送入前馈网络,再经残差与层归一化,完成单层解码器运算。









