Python生成器：高效实现分批次（Batch）数据输出的策略与实践

DDD

发布时间：2025-09-20 10:30:16

320人浏览过

来源于php中文网

原创

Python生成器：高效实现分批次（Batch）数据输出的策略与实践

本文深入探讨了如何利用Python生成器高效地实现数据分批次输出。通过分析常见的错误尝试，文章详细阐述了构建正确分批次生成器的关键逻辑，特别是如何优雅地处理循环结束后可能存在的不足一个批次的剩余数据，从而确保所有计算结果都能被完整、按批次地迭代处理，优化内存使用和数据流控制。

1. 引言：生成器与分批次处理的优势

在处理大量数据时，一次性将所有结果加载到内存中可能导致性能瓶颈甚至内存溢出。python生成器（generator）提供了一种“惰性求值”的机制，每次只生成一个值，极大地节省了内存。然而，在某些场景下，我们需要以批次（batch）的形式处理数据，例如在机器学习模型训练中，或者需要将数据分块写入文件时。本文将指导您如何构建一个能够按指定批次大小返回结果列表的python生成器，并解决实现过程中常见的陷阱。

2. 问题背景与常见实现尝试

假设我们有一个计算任务，需要对一系列数据进行排列组合并求和。首先，我们来看一个传统的、一次性返回所有结果的函数实现：

import itertools

def compute_add_full_list():
    data = range(5)
    cases = list(itertools.permutations(data, 2))
    print(f"所有排列组合: {cases}") # 打印所有排列组合
    result = []
    for x, y in cases:
        ans = x + y
        result.append(ans)
    return result

# 调用并打印结果
report_full = compute_add_full_list()
print(f"完整结果列表: {report_full}")

这种方法简单直接，但当cases列表非常大时，result列表也会占用大量内存。为了优化，我们可以将其转换为一个每次生成单个结果的生成器：

import itertools

def compute_add_single_generator():
    data = range(5)
    cases = list(itertools.permutations(data, 2))
    print(f"所有排列组合: {cases}") # 打印所有排列组合
    for x, y in cases:
        ans = x + y
        yield ans

# 迭代生成器并收集结果
report_single = []
for res in compute_add_single_generator():
    report_single.append(res)
print(f"单值生成器结果: {report_single}")

这个单值生成器工作正常，但我们的目标是实现批次输出。接下来，我们尝试构建一个分批次输出的生成器，并分析其潜在问题：

import itertools

def compute_add_generator_batch_problem(batch_size):
    data = range(5)
    cases = list(itertools.permutations(data, 2))
    print(f"所有排列组合: {cases}") # 打印所有排列组合

    res = []
    for x, y in cases:
        ans = x + y

        if len(res) != batch_size:
            res.append(ans)
            continue # 如果未满批次，继续添加

        # 批次已满，yield并重置
        yield res
        res = [] # 重置批次列表

# 调用并观察输出
batch_size_problem = 3
print(f"\n尝试分批次生成器 (问题版本), 批次大小: {batch_size_problem}")
for res_batch in compute_add_generator_batch_problem(batch_size_problem):
    print(f"批次结果: {res_batch}")

运行上述compute_add_generator_batch_problem函数，我们会发现输出中缺少了一些结果。例如，如果总共有20个结果，批次大小为3，那么理论上应该有7个批次（6个完整批次，1个包含2个元素的批次）。但上述代码只会输出6个批次，并且最后一个批次的数据不完整或缺失。这是因为当循环结束时，如果res列表中还有元素但未达到batch_size，这些元素将永远不会被yield。

立即学习“Python免费学习笔记（深入）”；

3. 正确实现分批次生成器

要正确实现分批次生成器，关键在于两点：

Cutout.Pro

AI驱动的视觉设计平台

下载

在循环内部，当当前批次列表达到指定大小时，立即yield该批次并清空。
在循环结束后，检查是否还有未满批次的剩余元素，如果有，则yield这些剩余元素。

以下是修正后的实现：

import itertools

def compute_add_generator_batch(batch_size):
    """
    一个生成器函数，用于按指定批次大小返回计算结果列表。

    Args:
        batch_size (int): 每个批次包含的元素数量。必须大于0。

    Yields:
        list: 一个包含 `batch_size` 个（或更少，对于最后一个批次）计算结果的列表。
    """
    assert batch_size > 0, "批次大小必须大于0"

    data = range(5)

    # 注意：为了简化示例，这里仍然一次性生成了所有排列组合。
    # 在实际大数据场景中，itertools.permutations本身就是惰性迭代器，
    # 可以直接在其上进行循环，避免一次性生成所有cases。
    cases = itertools.permutations(data, 2) 

    batch = [] # 用于存储当前批次的元素
    for x, y in cases:
        ans = x + y
        batch.append(ans)
        if len(batch) == batch_size:
            yield batch # 批次已满，yield当前批次
            batch = []  # 重置批次列表，准备下一个批次

    # 循环结束后，处理可能存在的不足一个批次的剩余元素
    if batch: # 如果batch不为空，说明还有剩余元素
        yield batch

# 调用并验证输出
batch_size_correct = 3
print(f"\n正确的分批次生成器, 批次大小: {batch_size_correct}")
all_batches = []
for res_batch in compute_add_generator_batch(batch_size_correct):
    all_batches.append(res_batch)
    print(f"批次结果: {res_batch}")

print(f"所有批次汇总: {all_batches}")

输出示例：

所有排列组合: [(0, 1), (0, 2), (0, 3), (0, 4), (1, 0), (1, 2), (1, 3), (1, 4), (2, 0), (2, 1), (2, 3), (2, 4), (3, 0), (3, 1), (3, 2), (3, 4), (4, 0), (4, 1), (4, 2), (4, 3)]

正确的分批次生成器, 批次大小: 3
批次结果: [1, 2, 3]
批次结果: [4, 1, 3]
批次结果: [4, 5, 2]
批次结果: [3, 5, 6]
批次结果: [3, 4, 5]
批次结果: [7, 4, 5]
批次结果: [6, 7]
所有批次汇总: [[1, 2, 3], [4, 1, 3], [4, 5, 2], [3, 5, 6], [3, 4, 5], [7, 4, 5], [6, 7]]

可以看到，所有结果都被正确地分成了批次，包括最后一个不完整的批次。

4. 注意事项与最佳实践

处理剩余元素的重要性： 这是实现分批次生成器的核心，确保所有数据都被处理。
batch_size校验： 确保batch_size是一个正整数，避免出现无限循环或空批次。
惰性源数据： 在实际应用中，如果您的原始数据源（如itertools.permutations）本身就是惰性迭代器，直接在其上循环会进一步提高内存效率，避免一次性加载所有cases到内存中。
通用性： 这种分批次生成器的模式非常通用，可以应用于任何需要按块处理数据的场景，例如从数据库分批读取、处理日志文件等。
深拷贝与浅拷贝： 在某些复杂场景下，如果batch中存储的是可变对象，并且在yield batch之后您希望修改原始数据，可能需要考虑yield batch[:]（浅拷贝）或yield copy.deepcopy(batch)（深拷贝）以避免外部修改影响已yield的批次。对于本例中的整数，这不是问题。

5. 总结

通过本文的详细讲解和示例代码，您应该已经掌握了如何在Python中构建一个健壮且高效的分批次生成器。这种模式不仅能够有效管理内存，还能提高数据处理的灵活性和可控性，是处理大规模数据集时不可或缺的编程技巧。正确处理批次边界和循环结束后的剩余数据，是实现这一目标的关键。

如何将列表按指定列数格式化输出并自动编号

Python 文件写入失败的常见原因及正确处理方式

Python DataFrame 去重：基于时间戳保留每篇文章的最新操作记录

Python中使用try语句写入文件时内容未保存的解决方案

Python 中使用 try 语句写入文件失败的常见原因及最佳实践

相关专题

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

390

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2112

2023.08.14

vb怎么连接数据库

在VB中，连接数据库通常使用ADO（ActiveX 数据对象）或 DAO（Data Access Objects）这两个技术来实现：1、引入ADO库；2、创建ADO连接对象；3、配置连接字符串；4、打开连接；5、执行SQL语句；6、处理查询结果；7、关闭连接即可。

359

2023.08.31

MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容，供大家免费下载体验。

259

2023.09.05

vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容，供大家免费下载体验。

329

2023.10.09

数据库对象名无效怎么解决

数据库对象名无效解决办法：1、检查使用的对象名是否正确，确保没有拼写错误；2、检查数据库中是否已存在具有相同名称的对象，如果是，请更改对象名为一个不同的名称，然后重新创建；3、确保在连接数据库时使用了正确的用户名、密码和数据库名称；4、尝试重启数据库服务，然后再次尝试创建或使用对象；5、尝试更新驱动程序，然后再次尝试创建或使用对象。

420

2023.10.16

vb连接access数据库的方法

vb连接access数据库方法：1、使用ADO连接，首先导入System.Data.OleDb模块，然后定义一个连接字符串，接着创建一个OleDbConnection对象并使用Open() 方法打开连接；2、使用DAO连接，首先导入 Microsoft.Jet.OLEDB模块，然后定义一个连接字符串，接着创建一个JetConnection对象并使用Open()方法打开连接即可。

480

2023.10.16

vb连接数据库的方法

vb连接数据库的方法有使用ADO对象库、使用OLEDB数据提供程序、使用ODBC数据源等。详细介绍：1、使用ADO对象库方法，ADO是一种用于访问数据库的COM组件，可以通过ADO连接数据库并执行SQL语句。可以使用ADODB.Connection对象来建立与数据库的连接，然后使用ADODB.Recordset对象来执行查询和操作数据；2、使用OLEDB数据提供程序方法等等。

231

2023.10.19