LLM运作路径为五步:一、词嵌入将子词映射为语义向量;二、自注意力通过Q/K/V计算动态建模上下文;三、多层堆叠结合残差与归一化实现特征抽象;四、解码阶段用softmax概率分布采样生成词元;五、预训练以掩码预测或因果建模为目标,用交叉熵优化参数。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您对大型语言模型(LLM)感到陌生,但希望从最基础的概念出发,逐步把握其内部逻辑与运行机制,则需要避开抽象术语堆砌,聚焦可感知、可追踪的具体环节。以下是理解 LLM 运作方式的路径:
一、从输入文本到数字向量:词嵌入的本质
LLM 无法直接处理文字,必须将每个词或子词映射为固定长度的实数向量,这一过程称为词嵌入。嵌入空间中语义相近的词向量距离更近,例如“猫”与“狗”的向量比“猫”与“汽车”更接近。
1、原始输入句子被分词器切分为子词单元,如“transformer”可能被拆为“trans”、“former”。
2、每个子词在预定义词汇表中查找对应索引,该索引用于检索嵌入矩阵中的一行向量。
3、所有子词向量按顺序堆叠,形成初始输入表示矩阵,维度为[序列长度 × 嵌入维度]。
二、通过注意力机制捕捉上下文依赖
传统模型难以建模长距离依赖,而自注意力机制允许模型在任意两个位置之间建立直接联系,从而动态加权聚合相关信息。
1、对输入向量分别线性投影生成查询(Q)、键(K)、值(V)三组向量。
2、计算每对位置的 Q 与 K 的点积,经缩放与 softmax 得到注意力权重矩阵。
3、用该权重对 V 向量加权求和,输出新位置表示,保留全局上下文信息。
三、多层堆叠实现特征逐级抽象
单层注意力仅能捕获浅层模式,而深层结构使模型能组合低阶特征形成高阶语义,如从“动词+宾语”识别出“动作对象关系”,再进一步推断“意图”或“因果”。每一层包含注意力子层与前馈神经网络子层,并辅以残差连接和层归一化。
1、将上一层输出送入注意力子层,执行一次完整的多头注意力计算。
2、将注意力输出与原始输入相加(残差连接),再经层归一化。
3、归一化结果输入前馈网络(含两层线性变换与激活函数),输出再次与输入相加并归一化。
四、解码阶段生成符合概率分布的下一个词
在生成任务中,模型基于已生成的全部前缀,逐个预测最可能的后续词元。该过程并非确定性选择,而是依据最终线性层输出的 logits 经 softmax 转换为词汇表上概率分布。
1、最终隐藏状态经线性层映射回词汇表大小维度,得到未归一化的 logits。
2、logits 减去最大值后进行 softmax 运算,确保数值稳定性并生成合法概率分布。
3、根据该分布采样(如 top-k、top-p 或贪心策略)选出下一个词元,加入输出序列。
五、训练目标驱动模型学习语言规律
LLM 在预训练阶段不依赖人工标注,而是通过海量无标注文本自动构造监督信号。核心在于让模型学会重建被遮盖或预测被删除的内容,从而内化语法、事实与推理模式。
1、在输入序列中随机掩盖约 15% 的词元,要求模型预测这些被掩码位置的原始词元(MLM 任务)。
2、对于长文档,将末尾连续片段移除,训练模型基于前面内容准确还原缺失部分(因果语言建模)。
3、损失函数采用交叉熵,衡量预测分布与真实标签之间的差异,并反向传播更新全部参数。










