0

0

高效处理Pandas分组抽样:动态样本量与替换策略

DDD

DDD

发布时间:2025-10-17 14:21:28

|

503人浏览过

|

来源于php中文网

原创

高效处理pandas分组抽样:动态样本量与替换策略

在数据分析领域,Pandas是处理表格数据不可或缺的工具。其中,分组(groupby)操作是其核心功能之一。然而,当面临复杂的抽样需求时,例如对一个包含数千万甚至上亿数据点的大型数据集进行分组抽样,并且每个分组需要抽取不同数量的样本,同时还要根据分组的实际大小动态决定是否允许重复抽样时,传统的groupby().sample()方法可能力不从心。本文将介绍一种基于groupby().apply()的优化策略,以高效、灵活地解决此类高级分组抽样问题。

1. 挑战:动态分组抽样与替换策略

假设我们有一个庞大的数据集df2,其中包含一个分组键列'a'。我们希望根据'a'列对数据进行分组,并从每个组中抽取特定数量的样本。这些样本数量并非固定值,而是由另一个数据帧df1(例如,包含每个组'a'对应的'count'值)所定义。

更进一步的挑战在于抽样时的“替换”(replace)策略。如果一个分组的实际行数小于或等于我们希望抽取的样本数n,那么为了达到n个样本的目标,我们必须允许重复抽样(replace=True)。反之,如果分组的行数大于n,我们通常会倾向于不重复抽样(replace=False),以获得尽可能多的唯一行。

直接使用df.groupby("a").sample(n=N)无法满足每个组N不同的需求。而通过循环遍历每个组并单独抽样,如:

# 伪代码:低效的循环方法
sampled_dfs = []
for group_key in df['a'].unique():
    group_df = df[df['a'] == group_key]
    n_samples = sample_counts_dict.get(group_key) # 从预设字典获取n
    if n_samples is not None:
        if len(group_df) >= n_samples:
            sampled_group = group_df.sample(n=n_samples, random_state=6, replace=False)
        else:
            sampled_group = group_df.sample(n=n_samples, random_state=6, replace=True)
        sampled_dfs.append(sampled_group)
result = pd.concat(sampled_dfs)

这种基于循环的方法对于拥有10万个唯一分组键(如问题描述中'a'列有10万个唯一值)的大型数据集来说,性能会非常低下,因为它涉及多次数据筛选、创建子DataFrame以及拼接操作。

2. 解决方案:groupby().apply()结合自定义函数

Pandas的groupby().apply()方法提供了一种更高效、更“Pandas风格”的解决方案。它允许我们将一个自定义函数应用到groupby对象生成的每个子DataFrame上,从而在C语言级别进行优化,显著提升性能。

2.1 准备示例数据

首先,我们定义用于演示的数据帧df1(包含每个组的样本计数)和df2(待抽样的原始数据)。

import pandas as pd
import numpy as np

# df1: 定义每个组 'a' 需要抽取的样本数量
data1 = {'a': [1, 2, 3], 'count': [1, 3, 2]}
df1 = pd.DataFrame(data1)
print("df1 (样本计数):\n", df1)

# df2: 原始数据集
data2 = {'a': [1, 1, 1, 2, 2, 3, 3], 'x': ['a', 'b', 'c', 'd', 'e', 'f', 'g']}
df2 = pd.DataFrame(data2)
print("\ndf2 (原始数据):\n", df2)

输出示例:

df1 (样本计数):
    a  count
0  1      1
1  2      3
2  3      2

df2 (原始数据):
    a  x
0  1  a
1  1  b
2  1  c
3  2  d
4  2  e
5  3  f
6  3  g

2.2 构建样本计数字典

为了在自定义函数中高效地查找每个组所需的样本数量,我们将df1转换为一个字典,其中键是分组键'a',值是对应的样本数量'count'。

Thiings
Thiings

免费的拟物化图标库

下载
sample_counts_dict = df1.set_index("a")["count"].to_dict()
print("\n样本计数字典:\n", sample_counts_dict)

输出示例:

样本计数字典:
 {1: 1, 2: 3, 3: 2}

2.3 定义自定义抽样函数

核心在于创建一个函数,它能接收一个分组DataFrame,并根据预设的字典和动态的replace逻辑进行抽样。

def get_sample_per_group(group_df, sample_counts_dict, random_state):
    """
    根据每个组的样本计数字典,对当前分组DataFrame进行抽样。
    动态调整 replace 参数:如果所需样本数大于分组大小,则 replace=True。

    Args:
        group_df (pd.DataFrame): 当前分组的DataFrame。
        sample_counts_dict (dict): 包含每个分组键及其所需样本数量的字典。
        random_state (int): 随机种子,用于保证抽样结果的可复现性。

    Returns:
        pd.DataFrame: 抽样后的DataFrame,如果该分组无需抽样则返回None。
    """
    # 获取当前分组的键值 (例如,'a' 列的值)
    # .iat[0] 比 .iloc[0] 更快,因为它直接访问单个元素
    group_key = group_df["a"].iat[0]

    # 从字典中查找当前分组所需的样本数量
    n_samples = sample_counts_dict.get(group_key)

    # 如果字典中没有对应的样本数量,则不进行抽样,返回None
    if n_samples is None:
        return None

    # 动态确定 replace 参数
    # 如果当前分组的行数小于或等于所需样本数,则必须允许重复抽样
    # 否则,默认不重复抽样以获取唯一行
    replace_flag = len(group_df) <= n_samples

    # 执行抽样
    return group_df.sample(n=n_samples, random_state=random_state, replace=replace_flag)

replace参数的动态逻辑解释:

  • len(group_df):当前分组的实际行数。
  • n_samples:该分组期望抽取的样本数量。
  • 当len(group_df)
  • 当len(group_df) > n_samples时,意味着分组的实际行数足够多,可以从中抽取n_samples个唯一的样本。此时,replace_flag为False(或不指定,因为False是sample函数的默认值),以确保抽取到唯一的行。

2.4 应用自定义函数进行抽样

最后,我们将自定义函数get_sample_per_group应用到df2的groupby('a')对象上。

# 设置一个随机种子以确保结果可复现
RANDOM_STATE = 6

# 对 df2 按 'a' 列进行分组,并应用自定义抽样函数
# group_keys=False 可以避免在结果中将分组键作为额外的索引层
sampled_df = df2.groupby("a", group_keys=False).apply(
    get_sample_per_group,
    sample_counts_dict=sample_counts_dict,
    random_state=RANDOM_STATE
)

print("\n最终抽样结果:\n", sampled_df)

输出示例:

最终抽样结果:
    a  x
0  1  a
3  2  d
4  2  e
4  2  e
5  3  f
6  3  g

从结果可以看出:

  • 对于a=1,df1中count为1,原始df2中有3行。len(group_df) (3) > n_samples (1),所以replace=False,抽取1个样本(如a)。
  • 对于a=2,df1中count为3,原始df2中有2行。len(group_df) (2)
  • 对于a=3,df1中count为2,原始df2中有2行。len(group_df) (2)

3. 注意事项与总结

  • 性能优势: groupby().apply()在Pandas底层进行了优化,避免了Python层面的显式循环,对于大型数据集和大量分组键,其性能远超手动循环。
  • group_keys=False: 在apply操作中设置group_keys=False可以防止分组键作为额外的索引层出现在结果中,使输出更加扁平化和易于处理。
  • random_state: 使用random_state参数可以确保每次运行代码时抽样结果的可复现性,这在调试和结果验证时非常重要。
  • 内存管理: 尽管apply是高效的,但如果单个分组非常庞大,处理单个分组DataFrame仍然可能占用大量内存。然而,apply是逐组处理的,通常不会一次性将所有分组加载到内存。
  • 错误处理: 在get_sample_per_group函数中,通过sample_counts_dict.get(group_key)并检查None值,可以优雅地处理某些分组键在df1中没有对应样本计数的情况。

通过这种groupby().apply()的组合策略,我们不仅解决了Pandas分组抽样中动态样本量和条件替换的复杂需求,而且确保了在处理大规模数据集时的性能和可扩展性。这种模式在处理各种复杂的组级操作时都非常有用,是Pandas高级应用中的一个强大工具。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

659

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

710

2023.08.11

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 11.2万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号