【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现

P粉084495128

发布时间：2025-07-25 10:38:24

851人浏览过

来源于php中文网

原创

该模型的目标是对严重退化(模糊)的人脸图像中进行盲人脸恢复。作者将前人提出的stylegan V2的解码器嵌入模型，作为GPEN的解码器；用DNN重新构建了一种简单的编码器，为解码器提供输入。这样模型在保留了styleganV2解码器优秀的性能的基础上，将模型的功能由图像风格转换变为了人脸超分辨率重建。想了解更多论文内容可以查看论文地址。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【第六届论文复现赛42题】 gpen盲人脸修复模型 paddle复现 - php中文网

1 模型简介

该模型的目标是对严重退化(模糊)的人脸图像中进行盲人脸恢复。作者将前人提出的stylegan V2的解码器嵌入模型，作为GPEN的解码器；用DNN重新构建了一种简单的编码器，为解码器提供输入。这样模型在保留了styleganV2解码器优秀的性能的基础上，将模型的功能由图像风格转换变为了人脸超分辨率重建。想了解更多论文内容可以查看论文地址。

1.1 模型总体结构

【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现 - php中文网

该模型的总体结构如上图所示。左边的区域为生成器（Generator）的结构，绿色部分为编码器，中间的Mapping Network用于特征映射，这两部分为作者添加的结构。蓝色的部分为解码器，const为作者添加的噪声输入。最右侧的为对抗网络的鉴别器。其中解码器、鉴别器的结构与StyleGAN V2一致。

1.3 损失函数

该模型的损失函数可分为基础损失函数和修正损失函数。基础损失函数与作者论文中提到的内容相同。修正损失函数在论文中没有介绍，只在代码中体现。经过测试后发现，修正损失函数起到了非常重要的作用，用于抑制模型训练过程中的过拟合，且使模型对输入图像的噪声更具鲁棒性。有兴趣可以查看本项目的train.py文件中train（）函数来了解该损失函数是如何实现的。接下来将主要介绍基础损失函数的组成。

该模型鉴别器的损失函数很简单，只有对抗网络中的对抗损失。而生成器的损失函数相对就比较复杂，由对抗损失La、内容损失Lc、特征损失Lf三部分构成。如下图所示：

【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现 - php中文网

对抗损失La在对抗网络中较为常见，要求鉴别器对生成器生成的图像的鉴别结果越接近1越好。内容损失Lc在该模型中，指的是生成图片与真实清晰图片间的L1范数距离，且作者采用Fast RCNN论文中提出来的SmoothL1 Loss来代替普通的L1-loss，这是因为smooth L1 loss让其对离群点、异常值不敏感，梯度变化相对更小，训练时更稳定。该模型用到的特征损失Lf和感知损失比较相似，主要的区别就是用到的模型不同。该论文计算Lf时用到的模型不是VGG网络，是前文提到的styleganV2 的鉴别器，通过该鉴别器对生成图片和真实图片计算特征图，进而计算特征损失。作者在论文中还提到上图中的α设置为1，β设置为0.02，但作者提供的代码中β值也设置为1。经过测试，该值选取为还是设置为1更好。

1.4 优化器

该模型采用Adam优化器进行优化。生成器的学习率设置为0.0016，鉴别器的学习率设置为0.0018，在训练过程中学习率采取固定值，不随训练批次下降。

1.5 数据集及数据预处理

GPEN模型训练集是经典的FFHQ人脸数据集,共70000张1024 x 1024高分辨率的清晰人脸图片，测试集是CELEBA-HQ数据集，共2000张高分辨率人脸图片。详细信息可以参考数据集网址: FFHQ ，CELEBA-HQ 。以下给出了具体的下载链接：

数据集下载地址：FFHQ， CELEBA-HQ

这两个数据集只有分辨率很高的人脸图，而训练时需要成对的退化-清晰人脸图片，因此需要自行生成退化的图片。在读取了一张高分辨率清晰图片后，需要先用opencv的resize函数降分辨率到相应的分辨率上，通常降为512x512或256x256的分辨率。其中256x256图片对应的模型训练较快，512的需要256的三倍以上的时间。需要注意的是，该模型对opencv resize函数用的插值规则鲁棒性较差，需要指定使用cv2.INTER_NEAREST插值方式。之后将图片像素值规范到[0,1]之间，就可以进行图片退化操作。作者使用的退化模型如下图所示：

【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现 - php中文网

其中I为清晰图像，先和退化核k进行卷积，产生退化，然后再添加高斯噪声nσ，最后再经过一种带有质量因子q的JPEG压缩算子进行压缩就得到了退化图像。将退化图像和真实清晰图像的像素值规范到[-1, 1]之间，就得到了一组训练数据。

1.6 训练细节

在训练策略上，经过测试，无需按作者在论文里提到的，先训练GAN Piror Network，直接对整体网络进行训练即可。

1.7 示例

下图从左到右依次是：生成的退化图像、恢复出的图像、真实清晰图像。

【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现 - php中文网

2 项目介绍

本项目基于paddlepaddle深度学习框架复现，我们将提供更加细节的训练流程，帮助有需要的人完成该模型的复现。

第三部分，我们将在3.1中介绍项目的代码结构，3.2中介绍用项目代码来复现模型的具体操作流程，3.3中对项目的代码细节进行介绍。

本项目复现精度如下表所示。该模型测试过程具有一定随机性，所以我在对比测试时固定了随机种子，下表中的测试数据是在同一组随机种子下得到的，如果更改随机种子，那得到的数据会有一定波动。

训练集 : 数量	测试集: 数量	FID	PSNR	模型参数文件
FFHQ: 70000	CELEBA-HQ: 2000	123.48	21.85	data/data142946/G_256_weight_best.pdparams

GPEN模型也集成到了PaddleGAN套件中，使用说明请参考说明文档.

3 开始复现

3.1 代码结构

GPEN/ 
    |-- data_2/       #存放一些测试数据的文件夹
    |-- data_loader/  #存放数据预处理相关的代码
    |-- model/        #存放GPEN模型结构相关的代码
    |-- loss/         #存放损失函数计算相关的代码
    |-- metric/       #存放计算评估指标(FID,PSNR)相关的代码
    |-- test_tipc/    #存放tipc相关文件
    |-- ckpts/        #训练时生成的文件夹，用于存放训练过程中保存的模型参数
    |-- samples/      #训练时生成的文件夹，用于存放训练过程中保存的测试图片，来直观地展示训练过程中模型生成图片的变化
    |-- train.py           #模型训练时调用
    |-- test.py            #模型评估时调用
    |-- predict.py         #用模型测试单张图片时调用
    |-- export_model.py    #tipc生成推理模型时调用
    |-- infer.py           #tipc进行推理时调用
    |-- readme.md          #项目说明文档

3.2 具体操作

3.2.1 解压数据集

运行下面的kenel来解压数据集：

In [ ]

!unzip -oq /home/aistudio/data/data142237/00000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/01000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/02000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/03000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/04000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/05000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/06000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/07000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/08000.zip -d data/train/
!unzip -oq /home/aistudio/data/data142237/10000.zip -d data/train/

!unzip -oq /home/aistudio/data/data142946/celehq.zip -d data/test/

3.2.2 训练模型

对模型进行训练时，运行以下代码：

Spirit Me

SpiritMe允许用户使用数字化身制作视频，这些化身可以模拟用户的声音和情感

下载

训练过程中会在ckpts/文件夹下生成train.log文件夹，用于保存训练日志。

如果要修改模型的参数，可修改的参数主要是size、mul和narrow，决定了模型针对的图片的分辨率，推荐选用256或512。如果要将size改为512，则要同时将mul改为2、narrow改为1，下面的操作步骤也是这样。

如果要改变训练的step数，需要修改max_iter 参数。

如果要从训练断点继续训练，则添加--pretrain参数为模型参数文件位置，并根据需要修改start_iter来保证训练日志的延续性。

In [ ]

!python train.py --size 256 --mul 1 --narrow 0.5 --start_iter 0  --max_iter 150000 --batch_size 2 --train_path  data/train/ --test_path data/test/celehq

模型只支持单卡训练。

模型训练需使用paddle2.3及以上版本，且需等paddle实现elementwise_pow 的二阶算子相关功能，使用paddle2.2.2版本能正常运行，但因部分损失函数会求出错误梯度，导致模型无法训练成功。如训练时报错则暂不支持进行训练，可跳过训练部分，直接使用提供的模型参数进行测试。模型评估和测试使用paddle2.2.2及以上版本即可。

3.2.3 模型评估

对模型进行评估时，在控制台输入以下代码：

运行之后，模型会加载--w路径下的模型参数文件，然后在测试集对其FID和PSNR指标进行评估。

In [2]

!python test.py --w data/data142946/G_256_weight_best.pdparams --test_path data/test/celehq --size 256  --mul 1 --narrow 0.5

3.2.4 模型单图像测试

对模型进行单图像的简单测试时，在控制台输入以下代码。

如果要在自己提供的模型上进行测试，请将模型的路径放在 -w 后面。如要修改测试的图片，请修改--img后的模型参数。

In [ ]

!python predict.py --size 256  --mul 1 --narrow 0.5 --w data/data142946/G_256_weight_best.pdparams  --img data_2/GPEN/predict/test_img.png

3.3 Tipc

3.3.1 导出inference模型

以下命令将生成预测所需的模型结构文件model.pdmodel和模型权重文件model.pdiparams以及model.pdiparams.info文件，均存放在inference/GPEN/目录下。

In [ ]

!python export_model.py --model_path data/data142946/G_256_weight_best.pdparams  --save_dir inference/GPEN

3.3.2 开始推理

推理结束会默认保存下模型生成的修复图像，并输出测试得到的FID和psnr值。

样例图片和对应的修复图像可查看1.7的示例。

输出示例如下:

result saved in : data/GPEN/predict/test_img_predict.png	FID: 151.78178552134233
	PSNR:21.65281356833421

In [ ]

!python infer.py --model_file inference/GPEN/model.pdmodel --params_file inference/GPEN/model.pdiparams --img data_2/GPEN/predict/test_img.png

3.3.3 调用脚本两步完成训推一体测试

测试基本训练预测功能的lite_train_lite_infer模式，依次运行下面两行代码：

第一行代码会下载并解压少量测试数据。第二行代码会先进行少批次的训练并保存参数文件，接着加载保存的参数文件生成推理模型，最后进行推理。

In [ ]

#准备数据!bash test_tipc/prepare.sh ./test_tipc/configs/GPEN/train_infer_python.txt 'lite_train_lite_infer'

In [ ]

#运行测试!bash test_tipc/test_train_inference_python.sh ./test_tipc/configs/GPEN/train_infer_python.txt 'lite_train_lite_infer'#'lite_train_lite_infer'

workbuddy部署自动化脚本_workbuddy脚本部署介绍【介绍】

WorkBuddy如何通过手机远程运行电脑上的爬虫程序_WorkBuddy数据采集攻略【进阶】

WorkBuddy怎么一键生成员工考勤统计表_WorkBuddy原始数据自动计算方法【HR必备】

WorkBuddy消息格式怎么自定义_WorkBuddy回复格式自定义技巧

DescriptAI如何批量生成视频_DescriptAI批量创作方法【汇总】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04