PyTorch中获取中间张量梯度值的实用指南

聖光之護

发布时间：2025-09-17 13:42:11

926人浏览过

来源于php中文网

原创

PyTorch中获取中间张量梯度值的实用指南

本文旨在解决PyTorch反向传播过程中获取非叶子节点（中间张量）梯度的问题。传统的register_backward_hook主要用于模块参数，对中间张量无效。我们将介绍一种通过retain_grad()方法结合张量引用存储来有效捕获并打印这些中间梯度的方法，并提供详细的代码示例与注意事项，帮助开发者更好地理解和调试模型。

理解PyTorch中的梯度与反向传播

在pytorch中，当我们构建一个神经网络并执行前向传播后，可以通过loss.backward()触发反向传播，计算模型参数的梯度。这些梯度是优化器更新参数的基础。然而，有时为了调试或深入理解模型的内部工作机制，我们可能需要查看非叶子节点（即计算图中的中间张量）的梯度。

PyTorch的自动微分系统（Autograd）默认情况下，在反向传播完成后会释放中间张量的梯度，以节省内存。此外，torch.nn.Module提供的register_full_backward_hook等钩子函数主要设计用于捕获模块输入和输出的梯度，或与模块参数相关的梯度，而非直接用于任意中间张量的梯度。

错误的尝试：使用钩子获取中间张量梯度

许多开发者可能会尝试使用模块的后向钩子来捕获中间张量的梯度，例如以下代码所示：

import torch
import torch.nn as nn

class func_NN(nn.Module):
    def __init__(self):
        super().__init__()
        self.a = nn.Parameter(torch.rand(1))
        self.b = nn.Parameter(torch.rand(1))

    def forward(self, inp):
        mul_x = torch.cos(self.a.view(-1, 1) * inp)
        sum_x = mul_x - self.b
        return sum_x

# 钩子函数
def backward_hook(module, grad_input, grad_output):
    print("module: ", module)
    print("inp_grad: ", grad_input)
    print("out_grad: ", grad_output)

# 模拟训练过程
a_true = torch.Tensor([0.5])
b_true = torch.Tensor([0.8])
x = torch.linspace(-1, 1, 10)
y = a_true * x + (0.1**0.5) * torch.randn_like(x) * (0.001) + b_true
inp = torch.linspace(-1, 1, 10)

foo = func_NN()
# 注册一个全反向传播钩子
handle_ = foo.register_full_backward_hook(backward_hook)

loss_fn = nn.MSELoss()
optimizer = torch.optim.Adam(foo.parameters(), lr=0.001)

print("--- 尝试使用钩子 ---")
for i in range(1): # 只运行一次以观察输出
    optimizer.zero_grad()
    output = foo.forward(inp=inp)
    loss = loss_fn(y, output)
    loss.backward()
    optimizer.step()

handle_.remove() # 移除钩子

上述代码中的backward_hook会打印func_NN模块的输入梯度和输出梯度，但它并不能直接提供mul_x或sum_x这些模块内部计算产生的中间张量的梯度。这是因为register_full_backward_hook捕获的是模块作为整体的输入和输出梯度，而不是其内部任意子表达式的梯度。

正确的方法：使用 retain_grad() 捕获中间张量梯度

要获取中间张量的梯度，我们需要明确告诉PyTorch的Autograd系统不要在反向传播后释放这些张量的梯度。这可以通过调用张量的retain_grad()方法来实现。此外，由于局部变量在函数结束后会超出作用域，我们需要将这些中间张量的引用存储在某个地方（例如作为nn.Module的属性），以便在反向传播完成后访问它们的.grad属性。

ImgGood

免费在线AI照片编辑器

下载

以下是修改后的代码示例：

import torch
import torch.nn as nn

class func_NN_RetainGrad(nn.Module):
    def __init__(self):
        super().__init__()
        self.a = nn.Parameter(torch.rand(1))
        self.b = nn.Parameter(torch.rand(1))
        # 用于存储中间张量的引用
        self.mul_x = None
        self.sum_x = None

    def forward(self, inp):
        mul_x = torch.cos(self.a.view(-1, 1) * inp)
        sum_x = mul_x - self.b

        # 关键步骤1: 对需要保留梯度的中间张量调用 retain_grad()
        mul_x.retain_grad()
        sum_x.retain_grad()

        # 关键步骤2: 存储中间张量的引用，以便反向传播后访问其 .grad 属性
        self.mul_x = mul_x
        self.sum_x = sum_x

        return sum_x

# 模拟数据
a_true = torch.Tensor([0.5])
b_true = torch.Tensor([0.8])
x = torch.linspace(-1, 1, 10)
y = a_true * x + (0.1**0.5) * torch.randn_like(x) * (0.001) + b_true
inp = torch.linspace(-1, 1, 10)

foo_retain = func_NN_RetainGrad()
loss_fn = nn.MSELoss()
optimizer = torch.optim.Adam(foo_retain.parameters(), lr=0.001)

print("\n--- 使用 retain_grad() 获取中间张量梯度 ---")

# 执行一次前向传播和反向传播
output = foo_retain.forward(inp=inp)
loss = loss_fn(y, output)
loss.backward() # 执行反向传播

# 反向传播完成后，现在可以访问中间张量的 .grad 属性
print("mul_x 的梯度:\n", foo_retain.mul_x.grad)
print("sum_x 的梯度:\n", foo_retain.sum_x.grad)

# 验证参数梯度是否正常计算
print("参数 a 的梯度:\n", foo_retain.a.grad)
print("参数 b 的梯度:\n", foo_retain.b.grad)

在这个修正后的示例中：

我们在forward方法中计算mul_x和sum_x之后，立即调用了它们的retain_grad()方法。这告诉Autograd在反向传播过程中不要清除这些张量的梯度信息。
我们将mul_x和sum_x赋值给self.mul_x和self.sum_x，将它们的引用存储在模块实例中。这样，即使forward方法执行完毕，我们仍然可以通过foo_retain.mul_x和foo_retain.sum_x访问到这些张量。
在调用loss.backward()之后，这些被保留的中间张量的梯度就可以通过它们的.grad属性被访问到并打印出来。

注意事项与最佳实践

内存消耗： retain_grad()会阻止Autograd释放中间张量的梯度，这会增加内存消耗。因此，应仅在调试或特定需求时使用，并在不再需要时移除或避免在生产代码中大量使用。
适用场景： retain_grad()适用于获取计算图中的任意中间张量的梯度。而模块钩子（如register_full_backward_hook）更适用于监控模块的输入/输出梯度，或者在模块级别执行一些操作。参数钩子（如param.register_hook）则用于直接修改或观察参数的梯度。
调试工具： retain_grad()是一个强大的调试工具，可以帮助我们理解梯度流，发现潜在的梯度消失或梯度爆炸问题，或者验证自定义反向传播的正确性。
何时调用： 必须在执行loss.backward()之前调用retain_grad()。如果在一个张量上多次调用retain_grad()，不会有额外影响。
叶子节点： 对于叶子节点（如nn.Parameter），其梯度默认会被保留（如果requires_grad=True），无需调用retain_grad()。

总结

在PyTorch中获取非叶子节点（中间张量）的梯度，不能直接依赖于nn.Module的后向钩子。正确的做法是利用张量的retain_grad()方法，并在前向传播时将这些中间张量存储为模块的属性。这样，在反向传播完成后，我们就可以通过访问这些属性的.grad字段来获取其梯度。理解并正确使用retain_grad()对于深入调试和优化PyTorch模型至关重要，但同时也要注意其可能带来的内存开销。

Python 函数签名设计与可读性原则

Python 如何写出可测试的函数

Python 内存分析工具 tracemalloc 实战

Django-CKEditor-5 全功能工具栏配置完整指南

Python 实现带降级机制的缓存：网络不可靠时返回过期数据

相关专题

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

432

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26

热门下载

网站特效

网站源码

网站素材

前端模板