0

0

利用Python和Pandas生成混合型虚拟数据:数值与分类字段的正确实践

霞舞

霞舞

发布时间:2025-09-19 13:33:21

|

822人浏览过

|

来源于php中文网

原创

利用Python和Pandas生成混合型虚拟数据:数值与分类字段的正确实践

本文详细介绍了如何使用Python、Pandas和NumPy高效生成包含数值和分类数据的虚拟数据集,特别针对在生成多行分类数据时常见的错误进行解析。通过示例代码,教程演示了如何正确利用列表推导式结合random.choice()为DataFrame的分类列生成随机且独立的字符串值,避免了仅生成单一重复值的常见陷阱,并提供了代码优化和最佳实践建议。

1. 虚拟数据生成背景与常见挑战

在数据分析、机器学习模型开发或软件测试中,经常需要创建包含多种数据类型的虚拟数据集。一个典型场景是生成既有数值型(如面积、价格)又有分类型(如区域、类型)的数据。使用python中的pandas库结合numpy和random模块是实现这一目标的常用方法。然而,在处理分类数据时,初学者常会遇到一个误区,即错误地为整个列生成了单个重复值,而非期望的随机分布。

例如,当尝试为DataFrame的“Borough”列填充来自预定义列表的随机区域名称时,如果代码实现不当,可能会出现以下结果:

       Sq. feet    Price  Borough
0           112   345382        5
1           310   901500        5
2           215   661033        5
3           147  1038431        5
4           212   296497        5

上述输出中,“Borough”列被错误地填充了单一的数字5,而非预期的区域名称。这通常是由于对Python中随机数生成函数的工作方式理解不当所致。

2. 问题根源分析:单值生成与列表生成

造成上述问题的原因在于对random.randrange()或random.choice()的调用方式。在初始的错误实现中,代码可能类似于:

WORDS = ["Chelsea", "Kensington", ...]
word = random.choice(WORDS) # 随机选择一个词,例如 "Pimlico"
# 错误用法:
# "Borough" : random.randrange(len(word)) 
# 假设 word 是 "Pimlico",len(word) 是 7。
# random.randrange(7) 会生成一个 0 到 6 之间的整数,例如 5。
# 这个操作在 DataFrame 构建时只执行一次,因此所有 50000 行都会得到这个单一的整数 5。

这里的问题在于:

立即学习Python免费学习笔记(深入)”;

  1. random.choice(WORDS)只选择了一个单词,并将其赋值给变量word
  2. len(word)计算的是这个 单个 单词的长度。
  3. random.randrange(len(word))则从0到该长度减1的范围内选择一个 整数
  4. 最关键的是,这个表达式在DataFrame的列定义中只被评估 一次。这意味着,无论DataFrame有多少行,该列的所有值都将是这个单次评估的结果。

为了为DataFrame的每一行生成一个独立的随机分类值,我们需要一个包含SIZE个随机选择元素的列表,而不是一个单一的标量值。

3. 正确生成分类数据的策略

要正确地为DataFrame的分类列生成随机值,我们需要创建一个与DataFrame行数相同长度的列表,其中每个元素都是从预定义分类列表中随机选择的结果。实现这一目标的最佳方式是使用列表推导式(List Comprehension)。

核心思想:

MOKI
MOKI

MOKI是美图推出的一款AI短片创作工具,旨在通过AI技术自动生成分镜图并转为视频素材。

下载

我们希望对每一行都执行 random.choice(BOROUGHS) 操作,并将所有结果收集到一个列表中。

# 假设 BOROUGHS 是你的分类列表
# 假设 SIZE 是你的行数
[random.choice(BOROUGHS) for _ in range(SIZE)]

这个列表推导式会循环SIZE次,每次循环都从BOROUGHS列表中随机选择一个元素,并将其添加到新生成的列表中。最终,这个列表将包含SIZE个随机选择的区域名称,每个名称都是独立的。

4. 完整的示例代码与解释

以下是修正后的代码,用于生成包含数值和分类数据的虚拟数据集:

import random
import pandas as pd
import numpy as np

# 定义数据集的行数,使用变量可以提高代码的可维护性
SIZE = 50_000 

# 定义分类数据的列表,建议使用更具描述性的变量名
BOROUGHS = ["Chelsea", "Kensington", "Westminster", "Pimlico", "Bank", 
            "Holborn", "Camden", "Islington", "Angel", "Battersea", 
            "Knightsbridge", "Bermondsey", "Newham"]

# 设置NumPy的随机种子以确保结果可复现
np.random.seed(1) 

# 使用Pandas创建DataFrame
data = pd.DataFrame({
    # 生成“Sq. feet”列:75到325之间的随机整数,共SIZE个
    "Sq. feet": np.random.randint(low=75, high=325, size=SIZE),

    # 生成“Price”列:200000到1250000之间的随机整数,共SIZE个
    "Price": np.random.randint(low=200000, high=1250000, size=SIZE),

    # 生成“Borough”列:使用列表推导式,从BOROUGHS中随机选择SIZE个元素
    "Borough": [random.choice(BOROUGHS) for _ in range(SIZE)]
})

# 将DataFrame保存为CSV文件,不包含索引
data.to_csv("realestate.csv", index=False)

# 打印DataFrame的前几行以验证结果
print(data.head())

代码解释:

  • SIZE = 50_000: 将重复使用的数字(如行数)定义为常量,便于修改和维护。
  • BOROUGHS = [...]: 明确定义了所有可能的分类值。
  • np.random.seed(1): 设置NumPy的随机种子,使得每次运行代码时生成的数值数据都是相同的,这对于调试和结果复现非常重要。
  • np.random.randint(low, high, size): 这是NumPy生成指定范围和数量整数的有效方法,适用于“Sq. feet”和“Price”等数值列。
  • [random.choice(BOROUGHS) for _ in range(SIZE)]: 这是解决分类数据生成问题的关键。
    • range(SIZE)生成一个从0到SIZE-1的序列。
    • _是一个占位符变量,表示我们不关心循环的当前索引值。
    • random.choice(BOROUGHS)在每次迭代中都会从BOROUGHS列表中随机选择一个元素。
    • 整个表达式构建了一个包含SIZE个随机区域名称的列表,这个列表随后被赋给“Borough”列。

5. 预期输出示例

运行上述代码后,data.head()的输出将如下所示,显示“Borough”列已正确填充为随机的区域名称:

       Sq. feet    Price      Borough
0           112   345382      Pimlico
1           310   901500    Battersea
2           215   661033      Holborn
3           147  1038431  Westminster
4           212   296497      Holborn

6. 注意事项与最佳实践

  • 变量命名: 使用清晰、描述性的变量名(如BOROUGHS而不是WORDS,SIZE而不是直接使用数字)可以显著提高代码的可读性和可维护性。
  • 可复现性: 对于数值型数据,使用np.random.seed()可以确保每次运行代码时生成的数据保持一致,这在开发和测试阶段非常有用。对于random模块的随机性,也可以使用random.seed()。
  • 列表推导式: 熟练掌握列表推导式是Python编程中的一项重要技能,它能以简洁高效的方式创建列表,尤其适合这种批量生成数据的场景。
  • 性能考量: 对于非常大的数据集(例如数百万行),虽然列表推导式通常效率很高,但也可以考虑NumPy的np.random.choice()方法,它可能在某些情况下提供更好的性能,尤其当分类数据可以被映射为整数索引时。例如:np.random.choice(BOROUGHS, size=SIZE)。

7. 总结

生成包含混合数据类型的虚拟数据集是数据科学工作流中的常见任务。通过理解random模块函数的行为以及利用列表推导式等Python特性,我们可以有效地为DataFrame的数值列和分类列生成准确、多样且符合期望的随机数据。遵循良好的编程实践,如使用常量定义重复值和设置随机种子,将进一步提升代码的质量和可维护性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

778

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

686

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

769

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

740

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

581

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

752

2023.08.11

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

6

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号