如何在Pandas DataFrame的每行数组中高效进行有放回随机抽样

聖光之護

发布时间：2026-03-07 20:30:12

186人浏览过

来源于php中文网

原创

本文介绍如何对dataframe中每行包含的多个大型数值数组（如11列×每列38000个float64）执行按行独立的有放回随机抽样（如每行抽取1000个数），并修正常见维度错误。

本文介绍如何对dataframe中每行包含的多个大型数值数组（如11列×每列38000个float64）执行按行独立的有放回随机抽样（如每行抽取1000个数），并修正常见维度错误。

在处理高维科学计算或生物信息学等场景时，常遇到类似结构：一个DataFrame有800行、11列，每单元格存储一个长度为38,000的NumPy数组（dtype=float64）。目标是对每一行的所有11个数组先合并，再从中独立、有放回地随机抽取n=1000个数值，最终将结果以新列（如'rand_sample'）形式存入DataFrame。

原始代码出错的根本原因在于嵌套循环逻辑错误：

df['rand_sample'] = [np.random.choice(j, size=n, replace=True) for i in df for j in df[i]]

该写法实际展平了整个DataFrame（800行 × 11列 = 8800个数组），对每个数组都抽样一次，最终生成8800个长度为1000的数组（共8,800,000个元素），而DataFrame索引仅800行，导致ValueError: Length of values (8000) does not match length of index (800)——注意此处报错中的“8000”实为8800的近似误报，本质是列表推导式产出元素数（800×11）与DataFrame行数不匹配。

✅ 正确解法是逐行操作（axis=1），并在每行内先合并所有数组，再统一抽样：

人声去除

用强大的AI算法将声音从音乐中分离出来

下载

import numpy as np
import pandas as pd

n = 1000
df['rand_sample'] = df.apply(
    lambda row: np.random.choice(
        np.concatenate(row.values),  # 将当前行11个数组拼接为单个长数组（len=418,000）
        size=n,
        replace=True
    ),
    axis=1
)

? 关键说明：

row.values 获取当前行所有列的值（即11个ndarray对象）；
np.concatenate(row.values) 高效合并为一维数组（无需显式np.hstack或循环np.append）；
np.random.choice(..., replace=True) 支持对大型数组高效有放回抽样（底层C实现，性能远优于Python循环）；
axis=1 确保函数作用于每一行，输出长度严格等于DataFrame行数（800），完美匹配索引。

⚠️ 注意事项：

若数组含NaN或inf，np.random.choice会抛出ValueError；建议预处理：np.concatenate([arr[~np.isnan(arr) & np.isfinite(arr)] for arr in row.values])；
内存敏感场景下，np.concatenate会创建临时大数组（38,000×11≈418KB/行 × 800行 ≈ 334MB）；如内存受限，可改用分块抽样（如每列抽floor(1000/11)个，再补足），但会损失“全局均匀性”；

为保证结果可复现，请在抽样前设置随机种子：np.random.seed(42)（全局）或使用Generator实例（推荐）：

rng = np.random.default_rng(seed=42)
df['rand_sample'] = df.apply(
    lambda row: rng.choice(np.concatenate(row.values), size=n, replace=True),
    axis=1
)

此方案简洁、向量化、符合Pandas惯用范式，兼顾正确性与性能，适用于大规模数组抽样任务。

相关标签:

numpy pandas 数值数组 for 循环 Length append 对象

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python资源释放怎么保证_上下文管理最佳实践下一篇：如何为函数参数精准标注数据类字段值类型

作者最新文章

MagicAgent— 荣耀联合复旦推出的智能体基础模型

2026-03-06 13:18

实现水平滚动后无法垂直返回顶部的问题修复方案

2026-03-06 13:26

Python 中按命名规则批量加载并分组处理图像数据集的完整教程

2026-03-06 13:36

CSS 文件覆盖问题解析：加载顺序、选择器权重与字体资源一致性

2026-03-06 13:49

Highcharts 世界地图钻取后回退时视角错乱的解决方案

2026-03-06 13:53

JavaScript 中按指定属性分离唯一项与重复项的高效实现

2026-03-06 14:03

JavaScript 数组按指定属性分离唯一项与重复项的实用方法

2026-03-06 14:07

Python脚本高效解析专有配置文件为CSV格式

2026-03-06 14:09

Laravel 5.5 注册成功后自定义跳转路径的完整配置指南

2026-03-06 14:11

R503指纹传感器与树莓派通信失败的排查与解决指南

2026-03-06 14:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

Python 时间序列分析与预测

2025.12.04

Python 数据清洗与预处理实战

2026.01.31

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

953

2023.09.19

append用法

append是一个常用的命令行工具，用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容，可以阅读本专题下面的文章。

348

2023.10.25

python中append的用法

在Python中，append()是列表对象的一个方法，用于向列表末尾添加一个元素。想了解更多append的更多内容，可以阅读本专题下面的文章。

1080

2023.11.14

python中append的含义

本专题整合了python中append的相关内容，阅读专题下面的文章了解更多详细内容。

184

2025.09.12

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板