Keras 训练中偶数 Epoch 日志全为零的排查与解决

DDD

发布时间：2025-10-18 08:57:22

859人浏览过

来源于php中文网

原创

Keras 训练中偶数 Epoch 日志全为零的排查与解决

本文探讨 keras 训练过程中，偶数 epoch 出现所有日志（准确率、损失等）为零的常见问题。该现象通常源于 `tf.keras.preprocessing.image.imagedatagenerator` 配合 `model.fit` 方法时，`steps_per_epoch` 参数配置不当。教程将详细解释问题根源，并提供两种有效解决方案：精确计算 `steps_per_epoch` 或省略该参数让 keras 自动推断，以确保训练过程的稳定性和日志的正确性。

Keras 训练日志异常：偶数 Epoch 结果为零

在使用 Keras 进行深度学习模型训练时，尤其是在处理图像数据并结合 tf.keras.preprocessing.image.ImageDataGenerator 进行数据增强和批量加载时，可能会遇到一个不寻常的现象：训练日志（包括准确率、损失、验证准确率和验证损失）在偶数个 epoch 中全部显示为零，而奇数个 epoch 则正常进行。这种规律性的异常表明训练流程中存在某种周期性错误，而非随机的训练不稳定。

以下是一个典型的日志输出示例，展示了这种偶数 epoch 为零的问题：

Epoch 1/20
90/90 ━━━━━━━━━━━━━━━━━━━━ 170s 2s/step - accuracy: 0.9974 - loss: 0.4769 - val_accuracy: 0.7968 - val_loss: 0.9699
Epoch 2/20
90/90 ━━━━━━━━━━━━━━━━━━━━ 0s 1ms/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00
Epoch 3/20
90/90 ━━━━━━━━━━━━━━━━━━━━ 175s 2s/step - accuracy: 0.9988 - loss: 0.4260 - val_accuracy: 0.8052 - val_loss: 0.9283
Epoch 4/20
90/90 ━━━━━━━━━━━━━━━━━━━━ 0s 728us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00

问题根源分析

此问题的核心通常在于 model.fit 方法中 steps_per_epoch 参数的设置不当，尤其是在与 ImageDataGenerator 结合使用时。ImageDataGenerator 的 flow_from_directory 方法会创建一个无限循环的生成器，它会不断地从数据集中生成批次数据。steps_per_epoch 参数的作用就是告诉 Keras 在一个 epoch 中从这个生成器中取多少个批次数据。

如果 steps_per_epoch 的值设置不正确，例如：

小于实际所需批次数量： 如果 steps_per_epoch 小于总样本数 / 批次大小，那么每个 epoch 都会提前结束，导致并非所有训练数据都被使用。这可能导致生成器在下一个 epoch 开始时处于一个不稳定的状态，或者 Keras 在某些 epoch 中无法从生成器中获取到有效的批次数据，从而记录为零。
与生成器内部状态不匹配： ImageDataGenerator 在内部维护其状态，包括当前读取到的文件索引。不正确的 steps_per_epoch 值可能导致生成器在某些 epoch 中无法正确重置或从有效位置开始生成数据，从而导致其返回空批次或不完整批次，进而产生零日志。

在提供的案例中，训练数据有 25000 张图片，batch_size 设置为 250。因此，每个 epoch 实际需要 25000 / 250 = 100 个批次。然而，steps_per_epoch 被设置为 90。这意味着每个 epoch 只处理了 90 * 250 = 22500 张图片，剩余的 2500 张图片未被处理。这种不完整的迭代可能导致生成器在下一个 epoch 的开始时出现状态异常，进而引发偶数 epoch 的日志为零。

解决方案

解决此问题主要有两种方法，都围绕着正确配置 steps_per_epoch 和 validation_steps：

方法一：精确计算 steps_per_epoch 和 validation_steps

这是最推荐和最稳健的方法。您需要明确计算出训练集和验证集所需的批次数量，并将其传递给 model.fit。

ProcessOn

免费在线流程图思维导图，专业强大的作图工具，支持多人实时在线协作

下载

步骤：

获取 ImageDataGenerator 报告的训练和验证样本总数。
根据 batch_size 计算 steps_per_epoch 和 validation_steps。通常使用 math.ceil 来确保即使最后一个批次不完整也能被处理。

示例代码：

import math
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras import layers, models, regularizers
from tensorflow.keras.optimizers import Adam

# 假设您的模型结构和编译部分与原代码相同
model1 = models.Sequential([
    layers.Conv2D(16,(3,3), activation='relu', input_shape=(150, 150, 3)),
    layers.MaxPooling2D(2,2),
    layers.BatchNormalization(),
    layers.Conv2D(32,(3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.BatchNormalization(),
    layers.Conv2D(64,(3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.BatchNormalization(),
    layers.Flatten(),
    layers.Dense(512, activation='relu', kernel_regularizer=regularizers.l2(0.001)),
    layers.Dropout(0.2),
    layers.Dense(1, activation='sigmoid')
])
model1.compile(optimizer=Adam(learning_rate=0.0002), loss='binary_crossentropy', metrics=['accuracy'])

# 数据生成器设置
train_CD = ImageDataGenerator(rescale=1.0/255.)
train_generator_CD = train_CD.flow_from_directory(
    './images/cat_dog/train_data/',
    target_size = (150, 150),
    batch_size = 250,
    class_mode = 'binary')

test_CD = ImageDataGenerator(rescale=1.0/255.)
test_generator_CD = test_CD.flow_from_directory(
    './images/cat_dog/test_data/',
    target_size = (150, 150),
    batch_size = 250,
    class_mode = 'binary')

# 获取样本总数
total_train_samples = train_generator_CD.samples
total_validation_samples = test_generator_CD.samples
batch_size = train_generator_CD.batch_size # 或者直接使用 250

# 计算 steps_per_epoch 和 validation_steps
steps_per_epoch = math.ceil(total_train_samples / batch_size)
validation_steps = math.ceil(total_validation_samples / batch_size)

print(f"Total training samples: {total_train_samples}, Batch size: {batch_size}, Steps per epoch: {steps_per_epoch}")
print(f"Total validation samples: {total_validation_samples}, Batch size: {batch_size}, Validation steps: {validation_steps}")

# 训练模型（修正后的 fit 调用）
history1=model1.fit(
    train_generator_CD,
    validation_data = test_generator_CD,
    epochs = 20,
    steps_per_epoch = steps_per_epoch, # 使用计算出的值
    validation_steps = validation_steps, # 使用计算出的值
    callbacks=[tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=3)] # 示例回调
    )

方法二：省略 steps_per_epoch 和 validation_steps

对于 ImageDataGenerator 返回的生成器，如果它正确实现了 __len__ 方法（flow_from_directory 通常会实现），Keras 能够自动推断出每个 epoch 所需的步数。在这种情况下，您可以完全省略 steps_per_epoch 和 validation_steps 参数。

示例代码：

import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras import layers, models, regularizers
from tensorflow.keras.optimizers import Adam

# 模型和数据生成器设置同上...

# 训练模型（省略 steps_per_epoch 和 validation_steps）
history1=model1.fit(
    train_generator_CD,
    validation_data = test_generator_CD,
    epochs = 20,
    # steps_per_epoch 和 validation_steps 被省略，Keras 将自动推断
    callbacks=[tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=3)] # 示例回调
    )

这种方法通常更简洁，并且可以避免手动计算可能导致的错误。Keras 会通过调用生成器的 __len__ 方法来确定每个 epoch 的步数。

注意事项与总结

理解 steps_per_epoch： 它是定义一个 epoch 的关键。当使用生成器时，steps_per_epoch 告诉 Keras 从生成器中取多少个批次的数据来完成一个 epoch 的训练。
validation_steps 同理： 对于验证集，validation_steps 决定了在验证阶段从验证数据生成器中取多少个批次。同样需要精确计算或让 Keras 自动推断。
ImageDataGenerator.samples： flow_from_directory 方法返回的生成器对象具有 samples 属性，可以用来获取目录中的总样本数，这对于计算 steps_per_epoch 和 validation_steps 至关重要。
Batch Normalization： 虽然与日志为零问题不是直接相关，但在使用 BatchNormalization 层时，批次大小的选择也很重要。过小的批次可能导致统计信息不稳定，影响模型的泛化能力。
回调函数： 确保您的自定义回调函数没有意外地干扰训练过程或日志记录。在大多数情况下，它们不会导致这种规律性的零日志问题。

通过正确配置 steps_per_epoch 和 validation_steps，无论是通过精确计算还是让 Keras 自动推断，都可以有效解决 Keras 训练中偶数 epoch 日志全为零的问题，确保训练过程的稳定性和日志的准确性。

如何使用 Tkinter 的 Scale 控件交互式控制三角波信号的幅度与频率

Tkinter 中的变量作用域与回调函数参数传递详解

Tkinter 中的局部变量作用域问题与回调函数参数传递解决方案

Tkinter 实现双滑块实时控制三角波信号的振幅与频率

如何在 Matplotlib 中精确统计 ginput() 的鼠标点击次数

相关专题

Nginx跨平台安装实操指南：Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者，均可快速搭建运行环境，掌握跨平台核心指令，为后续配置与调优奠定坚实基础。

2026.03.16

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

116

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

142

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

412

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板