0

0

如何将 SHAP Summary Plot 保存为高质量图像文件

心靈之曲

心靈之曲

发布时间:2025-08-20 23:24:01

|

393人浏览过

|

来源于php中文网

原创

如何将 SHAP Summary Plot 保存为高质量图像文件

本文详细介绍了如何将 SHAP (SHapley Additive exPlanations) 库生成的 summary_plot 可视化结果保存为图像文件。针对直接使用 plt.savefig() 可能导致空白图片的问题,教程强调了显式创建和引用 matplotlib 图形对象的重要性。通过初始化一个 Figure 对象,并在其上绘制 SHAP 图,用户可以确保正确地捕获并保存图表,从而有效地管理模型解释结果的可视化输出。

理解问题:为什么直接保存可能失败

在使用 python 进行数据可视化时,matplotlib 是一个功能强大的库,而 shap 库在生成解释性图表时通常会利用 matplotlib 进行渲染。当用户尝试将 shap.summary_plot 生成的图表保存为图像文件时,常见的问题是直接调用 matplotlib.pyplot.savefig() 可能会保存一个空白的图片。

这通常是由于 matplotlib 对图表(Figure)和坐标轴(Axes)的内部管理机制造成的。matplotlib.pyplot 模块提供了一系列便捷函数,它们通常操作“当前”的图表和坐标轴。如果 shap.summary_plot 在内部创建了一个新的图表对象,或者在绘制完成后将其关闭,那么紧接着调用的 plt.savefig() 可能会尝试保存一个默认的、空的“当前”图表,而不是我们期望的 SHAP 图。

核心解决方案:显式管理 Matplotlib 图形对象

解决此问题的关键在于显式地创建和管理 matplotlib 的 Figure 对象。通过创建一个 Figure 实例,然后确保 SHAP 图绘制在这个特定的 Figure 上,最后再通过该 Figure 实例的方法来保存图像,可以确保保存的是正确的图表。

具体步骤如下:

  1. 初始化 matplotlib.pyplot.Figure 对象: 使用 fig = plt.figure() 创建一个新的图表对象。此时,这个新创建的图表会成为“当前”图表。
  2. 绘制 SHAP 图: 调用 shap.summary_plot()。由于 fig 是当前图表,SHAP 库会默认将图表内容绘制到这个图表上。
  3. 通过 Figure 对象保存: 使用 fig.savefig(save_path) 来保存图表。这会明确地告诉 matplotlib 保存 fig 这个对象所代表的图表,而不是依赖于“当前”图表的隐式状态。
  4. 关闭 Figure 对象: 使用 plt.close(fig) 关闭该图表,释放资源。

实践示例:保存 SHAP Summary Plot

下面通过一个具体的代码示例来演示如何正确地保存 SHAP Summary Plot。我们将沿用原始问题中的模型和数据结构,但重点放在 SHAP 图的生成与保存上。

1. 环境准备与模型训练

首先,确保安装了必要的库:numpy, tensorflow, shap, matplotlib。

Adobe Image Background Remover
Adobe Image Background Remover

Adobe推出的图片背景移除工具

下载
import numpy as np
import shap
import matplotlib.pyplot as plt
from tensorflow import keras
from tensorflow.keras import layers

# 示例数据 (简化,仅用于演示目的)
X = np.array([[(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)],
              [(4,5,6,4,4),(5,6,4,3,2),(5,5,6,1,3),(3,3,3,2,2),(2,3,3,2,1)],
              [(7,8,9,4,7),(7,7,6,7,8),(5,8,7,8,8),(6,7,6,7,8),(5,7,6,6,6)],
              [(7,8,9,8,6),(6,6,7,8,6),(8,7,8,8,8),(8,6,7,8,7),(8,6,7,8,8)],
              [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],
              [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],
              [(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)]])
y = np.array([0, 1, 2, 2, 1, 1, 0])

# 构建并编译模型
model = keras.Sequential([
    layers.Conv1D(128, kernel_size=3, activation='relu', input_shape=(5,5)),
    layers.MaxPooling1D(pool_size=2),
    layers.LSTM(128, return_sequences=True),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(3, activation='softmax') # 假设3个类别,与y的实际值对应
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
print("开始训练模型...")
model.fit(X, y, epochs=10, verbose=0) # verbose=0 不显示训练进度
print("模型训练完成。")

2. SHAP 值计算

接下来,使用训练好的模型和数据计算 SHAP 值。

# 初始化 SHAP explainer
explainer = shap.GradientExplainer(model, X)
shap_values = explainer.shap_values(X)

# 定义要绘制的类别和特征索引
# shap_values 是一个列表,每个元素对应一个输出类别。
# 对于多分类模型,shap_values[cls] 是对应类别下的SHAP值数组。
# shap_values[cls][:,idx,:] 表示该类别下,所有样本的第idx个特征的所有维度SHAP值。
# X[:,idx,:] 对应所有样本的第idx个特征的所有维度原始数据。
cls = 0 # 示例:选择第一个输出类别
idx = 0 # 示例:选择第一个特征的SHAP值

3. 正确保存图表的代码实现

这是核心部分,演示如何显式管理 matplotlib 图形对象以正确保存 SHAP 图。

# 1. 初始化一个 matplotlib Figure 对象
fig = plt.figure()

# 2. 绘制 SHAP summary_plot 到当前 Figure 上
# 注意:这里我们传入了 shap_values[cls][:,idx,:] 和 X[:,idx,:]
# 这意味着我们正在可视化特定类别 (cls) 下,特定特征索引 (idx) 的SHAP值。
# 根据你的模型输出和特征结构,你可能需要调整 cls 和 idx。
shap.summary_plot(shap_values[cls][:,idx,:], X[:,idx,:], show=False) # show=False 防止立即显示图表

# 3. 定义保存路径
save_path = 'shap_summary_plot.png'

# 4. 通过 Figure 对象保存图表
fig.savefig(save_path, bbox_inches='tight', dpi=300) # bbox_inches='tight' 裁剪空白边缘,dpi设置分辨率

# 5. 关闭 Figure 对象,释放内存
plt.close(fig)

print(f"SHAP summary plot 已成功保存到:{save_path}")

关键概念解析:Matplotlib 图形与坐标轴

  • plt.figure(): 此函数创建一个新的 Figure 对象(可以理解为一张画布或一个窗口),并将其设置为当前的 Figure。所有后续的绘图操作(如 plt.plot(), plt.scatter(), shap.summary_plot() 等)如果未明确指定绘图目标,通常会作用于这个当前的 Figure 及其默认的 Axes(坐标轴)。
  • fig.savefig(path): 这是 Figure 对象的一个方法。它会保存 fig 这个特定的 Figure 对象所包含的所有内容。这是推荐的保存方式,因为它明确指定了要保存哪个图表,避免了 plt.savefig() 可能因“当前图表”状态变化而保存错误内容的问题。
  • plt.savefig(path): 这是 matplotlib.pyplot 模块的一个函数。它尝试保存当前的 Figure。如果 shap.summary_plot 在内部创建了一个新的 Figure 并将其设置为当前,或者在绘制后又将当前 Figure 切换回一个空的默认 Figure,那么 plt.savefig() 就可能保存一个空图。
  • plt.close(fig) / plt.close('all'): 用于关闭一个或所有 Figure 对象,释放系统资源。对于在脚本中批量生成和保存图表时,及时关闭不再需要的 Figure 是一个良好的习惯。

高级选项与注意事项

  1. 图像分辨率 (dpi): 在 fig.savefig() 中,可以使用 dpi 参数来控制图像的分辨率。例如,dpi=300 会生成一个每英寸300点的图像,适用于印刷或高质量展示。
  2. 文件格式: 除了 .png,你还可以保存为其他格式,如 .jpg (JPEG), .svg (Scalable Vector Graphics), .pdf (Portable Document Format) 等。SVG 和 PDF 是矢量图格式,放大后不会失真,非常适合出版物。
    fig.savefig('shap_summary_plot.svg', bbox_inches='tight') # 保存为SVG矢量图
  3. 图表布局 (bbox_inches='tight'): bbox_inches='tight' 参数在保存时会自动调整图表的边界,以尽可能地裁剪掉多余的空白边缘,使图表内容更紧凑。
  4. 显示图表 (plt.show()): 如果你想在保存之前先预览图表,可以在 shap.summary_plot() 调用之后、fig.savefig() 之前添加 plt.show()。但请注意,plt.show() 会阻塞程序执行,直到图表窗口被关闭。如果 shap.summary_plot 内部已经调用了 plt.show(),你可能需要通过设置 show=False 来阻止其自动显示。
  5. 多个图表: 如果需要在一个脚本中生成并保存多个 SHAP 图,建议为每个图表都创建一个独立的 Figure 对象,并分别进行绘制和保存。
    # 示例:保存第二个类别的SHAP图
    fig2 = plt.figure()
    shap.summary_plot(shap_values[1][:,idx,:], X[:,idx,:], show=False)
    fig2.savefig('shap_summary_plot_cls1.png', bbox_inches='tight', dpi=300)
    plt.close(fig2)

总结

正确保存 shap.summary_plot 的关键在于理解 matplotlib 的图表管理机制。通过显式地创建 Figure 对象,并在其上进行绘图,然后使用 Figure 实例的 savefig 方法,可以确保图表内容被准确地捕获和保存。这种方法不仅解决了空白图片的问题,也使得图表管理更加清晰和可控,是进行专业数据可视化输出的推荐实践。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 7万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号