Pandas中基于组的灵活采样：实现不同n值与动态替换策略

碧海醫心

发布时间：2025-10-16 10:28:23

374人浏览过

来源于php中文网

原创

Pandas中基于组的灵活采样：实现不同n值与动态替换策略

本文深入探讨了在pandas中对大型数据集进行分组采样的高效方法。针对传统`groupby().sample()`无法满足各组不同采样数量`n`以及动态替换策略（`replace=true/false`）的需求，我们提出并详细解释了如何利用`groupby().apply()`结合自定义函数来实现这一复杂采样逻辑，显著提升了处理效率和代码可读性，适用于大规模数据场景。

Pandas分组采样：实现动态n值与替换策略

在数据分析中，我们经常需要对数据集进行分组（groupby）操作，并从每个组中抽取一定数量的样本。然而，当每个组所需的样本数量n不同，并且采样是否需要替换（replace）也依赖于组的原始大小时，标准的df.groupby("col").sample(n=...)方法就显得力不从心了。对于大型数据集，简单的循环遍历和过滤操作会导致性能瓶颈。本教程将介绍一种高效且灵活的解决方案，利用groupby().apply()结合自定义函数来解决这一挑战。

挑战：动态采样数量与替换策略

假设我们有一个包含数千万甚至上亿条记录的大型数据集df_main，其中包含一个分组列a（具有大量唯一值，例如10万个）。我们还有一个辅助数据集df_sample_counts，它指定了列a中每个唯一值应该采样多少条记录。此外，采样规则要求：

如果组的原始记录数小于或等于所需的采样数n，则使用replace=True进行采样，以确保能达到指定的n（允许重复）。
如果组的原始记录数大于所需的采样数n，则使用replace=False进行采样，以获取尽可能多的唯一记录。

传统的df.groupby("a").sample(n=1)只能对所有组应用相同的n值。而通过循环遍历每个组并单独采样，虽然能实现功能，但在处理大数据集时效率低下，无法满足生产环境的需求。

解决方案：groupby().apply()与自定义函数

Pandas的groupby().apply()方法为执行复杂的组级操作提供了强大的灵活性。我们可以定义一个自定义函数，该函数将接收每个分组的DataFrame作为输入，并在其中实现动态采样逻辑。

1. 准备数据

首先，我们创建两个示例DataFrame，模拟原始数据和采样数量配置。

import pandas as pd
import numpy as np

# 模拟采样数量配置 DataFrame (df1)
data_counts = {'a': [1, 2, 3], 'count': [1, 3, 2]}
df1 = pd.DataFrame(data_counts)
print("df1 (采样数量配置):")
print(df1)

print("-" * 30)

# 模拟原始数据 DataFrame (df2)
data_original = {'a': [1, 1, 1, 2, 2, 3, 3], 'x': ['a', 'b', 'c', 'd', 'e', 'f', 'g']}
df2 = pd.DataFrame(data_original)
print("df2 (原始数据):")
print(df2)

输出示例:

Programming Helper

AI代码自动生成器，在AI的帮助下更快地编程

下载

df1 (采样数量配置):
   a  count
0  1      1
1  2      3
2  3      2
------------------------------
df2 (原始数据):
   a  x
0  1  a
1  1  b
2  1  c
3  2  d
4  2  e
5  3  f
6  3  g

2. 构建采样数量查找字典

为了在自定义函数中高效地获取每个组的采样数量n，我们将df1转换为一个字典，其中键是分组列a的值，值是对应的采样数量count。

sample_counts_dict = df1.set_index("a")["count"].to_dict()
print("\n采样数量查找字典:")
print(sample_counts_dict)

输出示例:

采样数量查找字典:
{1: 1, 2: 3, 3: 2}

3. 定义自定义采样函数

这个函数将是解决方案的核心。它接收一个分组的DataFrame (df_group)，查找字典 (dct) 和一个随机种子 (random_state)。

def get_sample(df_group, dct, random_state):
    # 获取当前组的分组键 'a' 的值
    # df_group["a"].iat[0] 比 df_group["a"].iloc[0] 更快，因为它直接访问底层数组
    group_key = df_group["a"].iat[0]

    # 从字典中获取当前组的采样数量 n
    n_samples = dct.get(group_key)

    # 如果字典中没有对应的采样数量，则不进行采样，返回None
    if n_samples is None:
        return None # 或返回一个空的DataFrame，取决于具体需求

    # 根据组的实际大小和所需的采样数量 n_samples 决定 replace 参数
    # 如果组的大小小于或等于 n_samples，则允许替换 (replace=True)
    # 否则，不允许替换 (replace=False)
    replace_flag = len(df_group) <= n_samples

    # 执行采样操作
    return df_group.sample(n=n_samples, random_state=random_state, replace=replace_flag)

函数逻辑详解:

group_key = df_group["a"].iat[0]: 在apply操作中，df_group是原始DataFrame中属于某个特定组的所有行。iat[0]用于高效地获取该组的第一个（也是唯一的）a值，即当前组的标识。
n_samples = dct.get(group_key): 使用get()方法从预先构建的sample_counts_dict中安全地获取当前组所需的采样数量。如果group_key不存在于字典中，get()会返回None。
if n_samples is None: return None: 处理df2中存在但df1中未指定采样数量的组。在这种情况下，我们选择不返回任何样本。
replace_flag = len(df_group) <= n_samples: 这是实现动态替换策略的关键。如果当前组的行数（len(df_group)）小于或等于目标采样数n_samples，则replace设置为True，允许重复采样以达到n_samples。否则，replace设置为False，确保所有样本都是唯一的。
df_group.sample(...): 对当前组的DataFrame执行采样操作，并传入计算出的n_samples、random_state和replace_flag。

4. 应用自定义函数进行分组采样

现在，我们将自定义函数get_sample应用到df2的groupby("a")结果上。

# 使用 groupby().apply() 进行分组采样
# group_keys=False 可以避免在结果中添加分组键作为额外的索引层，提高效率
sampled_df = df2.groupby("a", group_keys=False).apply(
    get_sample,
    dct=sample_counts_dict,
    random_state=6 # 保持随机性可复现
)

print("\n最终采样结果:")
print(sampled_df)

输出示例:

最终采样结果:
   a  x
0  1  a
3  2  d
4  2  e
4  2  e
5  3  f
6  3  g

从结果可以看出：

对于a=1，df1要求采样1个，df2有3个，所以采样1个（replace=False）。
对于a=2，df1要求采样3个，df2有2个，所以采样3个（replace=True，导致e重复）。
对于a=3，df1要求采样2个，df2有2个，所以采样2个（replace=True或False都可以，此处len(df_group) <= n_samples为真，所以是True，但实际效果是取全部不重复）。

注意事项与性能考量

group_keys=False: 在groupby().apply()中设置group_keys=False是一个良好的实践，尤其是在你不需要分组键作为最终DataFrame索引的一部分时。它可以减少Pandas在内部处理索引的开销，从而提高性能。
random_state: 使用random_state参数可以确保你的采样结果是可复现的。在调试或需要一致结果时，这是一个非常重要的参数。
apply()的性能: 尽管apply()比显式Python循环更高效，但它仍然在Python层面对每个组执行操作。对于极端庞大的数据集和复杂的操作，如果能找到完全向量化的Pandas或NumPy函数替代，性能会更好。然而，对于这种需要动态逻辑（如条件判断replace参数）的场景，apply()通常是最佳的折衷方案。
内存使用: 对于非常大的数据集，如果每个组都很大，apply()可能会在内存中加载整个组。请确保你的系统有足够的内存来处理。
处理缺失的组配置: dct.get(group_key)和随后的if n_samples is None: return None有效地处理了原始数据中存在但df1中没有指定采样数量的组。你可以根据业务需求选择返回空DataFrame或跳过这些组。

总结

通过结合使用Pandas的groupby().apply()方法和精心设计的自定义函数，我们能够优雅且高效地解决在大型数据集中进行复杂分组采样的问题。这种方法不仅能够灵活地处理每个组不同的采样数量n，还能根据组的实际大小动态调整采样时的替换策略，从而满足多样化的数据分析需求，同时保持代码的清晰性和可维护性。

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

Python多数元素怎么找_摩尔投票法O(1)空间寻找众数

Python爬虫重试机制怎么写_Tenacity库装饰器实现网络异常自动重试与退避策略

Python异步上下文管理器_async with使用与__aenter__及__aexit__魔法方法实现资源管理

Python断言怎么写_assert语句在代码调试与校验中的作用

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板