0

0

如何在在线训练中有效防止灾难性遗忘

心靈之曲

心靈之曲

发布时间:2026-02-13 19:13:01

|

849人浏览过

|

来源于php中文网

原创

如何在在线训练中有效防止灾难性遗忘

本文介绍在内存受限场景下,通过数据采样策略与生成器设计避免keras模型在分块加载数据时发生的灾难性遗忘,核心是确保每轮训练均均衡覆盖全部数据分布。

本文介绍在内存受限场景下,通过数据采样策略与生成器设计避免keras模型在分块加载数据时发生的灾难性遗忘,核心是确保每轮训练均均衡覆盖全部数据分布。

在大规模二分类任务中,当训练数据总量远超内存容量时,常见的“逐文件顺序训练”(即对每个 .npz 文件调用一次 model.fit())会导致严重的灾难性遗忘(Catastrophic Forgetting):模型权重被最新一批样本(如最后500个)过度主导,快速丢失对早期数据的判别能力,最终性能退化为仅拟合末段数据。您原始代码中循环调用 model.fit() 的本质是顺序经验重放(sequential experience replay),缺乏跨批次的数据混合,违背了随机梯度下降(SGD)依赖数据独立同分布(i.i.d.)的基本假设。

解决该问题的关键不是降低学习率或更换优化器,而是重构数据供给机制——从“按文件遍历”转向“跨文件采样”。您后续采用的生成器方案正是这一思想的正确实践。以下是优化后的专业实现方案:

Scenario
Scenario

一个AI生成游戏资产的工具

下载

✅ 正确做法:跨文件同步采样生成器

import numpy as np
from tensorflow.keras.utils import Sequence

class CrossFileDataGenerator(Sequence):
    def __init__(self, file_paths, batch_size=32, num_samples=None):
        self.file_paths = file_paths
        self.batch_size = batch_size
        self.num_samples = num_samples or float('inf')
        # 预加载所有文件句柄(mmap_mode='r' 保证低内存占用)
        self.file_handles = [np.load(fp, mmap_mode='r') for fp in file_paths]
        # 获取各文件样本数,取最小值以保证索引安全
        self.min_file_len = min(fh['array1'].shape[0] for fh in self.file_handles)
        self.steps_per_epoch = min(self.min_file_len, self.num_samples) // self.batch_size

    def __len__(self):
        return self.steps_per_epoch

    def __getitem__(self, index):
        # 每个 batch 包含 batch_size 个样本,每个样本来自不同文件的同一索引位置
        # → 实现隐式均匀采样:每轮训练中,每个文件贡献等量样本
        start_idx = index * self.batch_size
        end_idx = start_idx + self.batch_size
        indices = np.arange(start_idx, end_idx) % self.min_file_len

        X_batch = np.empty((self.batch_size, *self.file_handles[0]['array1'].shape[1:]))
        y_batch = np.empty((self.batch_size,), dtype=self.file_handles[0]['array2'].dtype)

        for i, idx in enumerate(indices):
            # 轮询选择文件(或随机打乱 file_handles 顺序提升鲁棒性)
            file_idx = i % len(self.file_handles)
            X_batch[i] = self.file_handles[file_idx]['array1'][idx]
            y_batch[i] = self.file_handles[file_idx]['array2'][idx]

        return X_batch, y_batch

    def on_epoch_end(self):
        # 可选:每轮结束时 shuffle file_handles 顺序,进一步打破顺序偏差
        np.random.shuffle(self.file_handles)

# 使用示例
generator = CrossFileDataGenerator(
    file_paths=[f"{TRAINING_FOLDER}/{f}" for f in input_file_names],
    batch_size=len(input_file_names),  # 关键:batch_size = 文件数,确保每批含各文件1样本
    num_samples=NUM_SAMPLES
)

model.fit(
    generator,
    epochs=EPOCHS,
    verbose=2,
    callbacks=[early_stopping, lr_schedule]
)

⚠️ 注意事项与进阶建议

  • batch_size 设计原则:设为 len(input_file_names) 是一种简洁有效的策略(如您所做),它强制每批数据天然覆盖全部数据源,极大缓解遗忘。若文件数量过大(如 >1000),可设为文件数的约数(如 256),并在 __getitem__ 中使用 np.random.choice 随机选取文件索引,保持跨源多样性。
  • 内存安全:始终使用 mmap_mode='r' 加载 .npz,避免将整个文件载入内存;生成器中仅保留文件句柄,不缓存数据。
  • 替代方案对比
    • ❌ fit_generator(已弃用):功能等价但接口过时,推荐使用 tf.data.Dataset.from_generator 或自定义 Sequence(如上);
    • ⚠️ 经验回放(Experience Replay):需额外维护一个固定大小的样本缓存池,适合流式数据,但增加实现复杂度;
    • ✅ 弹性权重固化(EWC)或渐进式网络(Progressive Networks):适用于持续学习(Continual Learning)场景,但对本问题属过度设计。
  • 验证必要性:务必在训练过程中监控各数据块的独立验证集准确率(而非仅整体验证集),确认模型未对早期文件性能坍塌。

综上,灾难性遗忘在此类场景下的根源是数据供给的非平稳性。通过生成器实现跨文件、跨批次的结构化采样,既满足内存约束,又恢复了SGD所需的统计代表性——这是工程实践中高效、轻量且可验证的最优解。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1417

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

339

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2209

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

36

2026.01.19

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1417

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

339

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2209

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

36

2026.01.19

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

20

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号