Python LoRA / QLoRA 的高效微调流程

舞夢輝影

发布时间：2026-02-23 16:18:11

186人浏览过

来源于php中文网

原创

lora微调时target_modules需按模型结构精确选择：llama/mistral用["q_proj","k_proj","v_proj","o_proj"]，phi-3/gemma同理但注意down_proj可选，qwen2等需用named_modules确认实际名称；qlora中bnb_4bit_compute_dtype应与硬件匹配（a100/h100用bfloat16，rtx3090/4090用float16），且必须与trainer混合精度设置一致；prepare_model_for_kbit_training必须在get_peft_model前调用；合并权重前须先model.eval()，再merge_and_unload()，导出fp16需额外to(torch.float16)。

python lora / qlora 的高效微调流程

LoRA 微调时 `target_modules` 怎么选才不报错

选错 target_modules 是 LoRA 最常见的崩溃原因——模型加载不报错，但训练一启动就提示 KeyError: 'xxx' 或 Module not found。根本原因是 Hugging Face 的 peft 库只对模块名做字符串匹配，不自动适配不同模型结构。

LLaMA / Mistral 系列（LlamaForCausalLM）：固定用 ["q_proj", "k_proj", "v_proj", "o_proj"]；加 "gate_proj" 和 "up_proj" 能提升效果，但必须确认模型确实有这些层（比如 LLaMA-3 有，LLaMA-2 没有 gate_proj）
Phi-3 / Gemma：必须包含 "q_proj", "k_proj", "v_proj", "o_proj"，"down_proj" 可选；漏掉 o_proj 会导致梯度无法回传到注意力头
别硬套教程里的列表：用 model.named_modules() 打印前 20 行，搜 "proj" 看实际名字；有些模型（如 Qwen2）的 v_proj 实际叫 value_proj
QLoRA 下如果开了 load_in_4bit=True，target_modules 必须在量化前就确定——改了列表再 reload 模型会触发 RuntimeError: Cannot re-initialize CUDA in forked subprocess

QLoRA 训练中 `bnb_4bit_compute_dtype` 设成 `torch.float16` 还是 `torch.bfloat16`

这个参数不决定显存占用，只影响计算精度和硬件兼容性。设错不会报错，但可能让 loss 飙升或收敛变慢。

A100 / H100：优先用 torch.bfloat16，矩阵乘更稳，尤其 batch size > 4 时；float16 在长序列上容易 underflow
RTX 3090 / 4090：只能用 torch.float16，bfloat16 不被原生支持，强行设会静默退化为 float32，显存暴涨且速度不增
混合精度训练（fp16=True 或 bfloat16=True 在 Trainer 中）必须和 bnb_4bit_compute_dtype 一致，否则 Trainer 会跳过某些层的梯度缩放，loss 曲线锯齿状抖动
检查方法：print(model.base_model.model.model.layers[0].self_attn.q_proj.weight.dtype) —— 输出应和你设的 compute_dtype 完全一致

`prepare_model_for_kbit_training` 必须在 `get_peft_model` 之前调用

顺序反了会导致梯度全部为 None，训练几步后 loss 突然变成 nan，但不报错。这是因为 prepare_model_for_kbit_training 做了两件事：插入梯度检查点（gradient_checkpointing_enable）和重置 layernorm 的 dtype；如果 LoRA adapter 已经 wrap 了模块，再调用它就失效了。

MyMap AI

使用AI将想法转化为图表

下载

正确顺序只有这一种：model = prepare_model_for_kbit_training(model) → peft_config = LoraConfig(...) → model = get_peft_model(model, peft_config)
常见错误：在 AutoModelForCausalLM.from_pretrained 后直接 get_peft_model，忘了 prep；或者把 prepare_model_for_kbit_training 放在 Trainer 初始化之后
如果你用了 load_in_4bit=True 但没调这个函数，model.forward() 能跑，Trainer.train() 会卡在第一个 step，GPU 显存占满不动，nvidia-smi 看不到计算活动

微调后合并权重时 `model.merge_and_unload()` 报 `RuntimeError: can't detach tensor that requires grad`

这说明模型还在训练模式下强行合并，PyTorch 拒绝破坏计算图。不是 bug，是保护机制。

立即学习“Python免费学习笔记（深入）”；

必须先 model.eval()，再 model.merge_and_unload()；如果用 Trainer，要在 Trainer.train() 结束后手动加这行
QLoRA 合并后默认仍是 4-bit 权重，想导出为 fp16 模型，得额外调 model = model.to(torch.float16)，否则 save_pretrained() 存的是量化状态，下次 load 会报 AttributeError: 'int4' object has no attribute 'shape'
合并后验证：用 model("Hello") 跑一次前向，输出 logits 形状应和原始模型一致；如果 shape 少一维，说明 merge_and_unload 没生效，大概率是忘关 eval 模式
小模型（model.save_pretrained("merged") + from_pretrained(..., device_map="auto") 加载，避免合并时 OOM

事情说清了就结束。最常卡住的地方不是代码写错，而是模型状态（train/eval）、量化配置、LoRA 插入顺序这三者之间互相咬死——调一个，另外两个必须同步确认。

Python 脚本与服务共存的架构设计

VSCode Python 多行函数调用中右括号缩进异常的解决方案

如何安全地临时修改 Python 日志级别（上下文管理器实现）

如何安全地临时修改 Python 日志级别（支持上下文管理）

Python 日志级别临时调整的安全上下文管理方案

相关专题

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

192

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

618

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

217

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

642

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1026

2024.03.22