0

0

Pandas中混合字符串列的数值提取与分组聚合教程

霞舞

霞舞

发布时间:2025-09-13 13:42:27

|

221人浏览过

|

来源于php中文网

原创

Pandas中混合字符串列的数值提取与分组聚合教程

本教程将指导您如何在Pandas DataFrame中处理包含混合数字和文本的列。我们将学习如何使用str.extract结合正则表达式从字符串中精确提取数值,并在此基础上进行分组聚合,以实现按类别汇总销售数据等复杂分析需求。

问题背景:非结构化销售数据处理

在数据分析实践中,我们经常会遇到数据格式不统一的情况。例如,在一个pandas dataframe的列中,数值可能与描述性文本混合在一起,且格式不固定。以下是一个典型的例子:

import pandas as pd
import io

data = """Category    Sales       Paid
Table       1 table     Yes
Chair       3chairs     Yes
Cushion     8 cushions  Yes
Table       3Tables     Yes
Chair       12 Chairs   No
Mats        12Mats      Yes
"""
df = pd.read_csv(io.StringIO(data), sep=r'\s+')
print(df)

输出的DataFrame如下:

  Category       Sales Paid
0    Table     1 table  Yes
1    Chair     3chairs  Yes
2  Cushion  8 cushions  Yes
3    Table     3Tables  Yes
4    Chair    12 Chairs   No
5     Mats       12Mats  Yes

我们的目标是从Sales列中提取纯数字部分,并按Category进行分组求和。由于Sales列中的数值格式不一致(例如 "1 table", "3chairs", "8 cushions"),直接进行数值运算是不可能的。

核心工具:str.extract进行模式匹配

Pandas的Series.str.extract方法是处理此类问题的强大工具。它允许我们使用正则表达式从字符串中提取符合特定模式的部分。

1. 提取数值部分

为了从Sales列中提取开头的数字,我们可以使用正则表达式^(\d+):

  • ^:匹配字符串的开始。
  • \d+:匹配一个或多个数字。
  • ():创建一个捕获组,str.extract将返回这个捕获组匹配到的内容。
# 提取销售数量
extracted_sales = df['Sales'].str.extract('^(\d+)', expand=False)
print("提取的销售数量(字符串形式):")
print(extracted_sales)

输出结果:

提取的销售数量(字符串形式):
0     1
1     3
2     8
3     3
4    12
5    12
Name: Sales, dtype: object

expand=False参数确保返回一个Series而不是DataFrame。此时,提取的数字仍然是字符串类型(dtype: object),需要转换为整数类型才能进行数学运算。

2. 数据类型转换

使用astype(int)将提取的字符串数字转换为整数:

# 将提取的字符串转换为整数
numeric_sales = extracted_sales.astype(int)
print("\n转换后的销售数量(整数形式):")
print(numeric_sales)

输出结果:

转换后的销售数量(整数形式):
0     1
1     3
2     8
3     3
4    12
5    12
Name: Sales, dtype: int64

按类别汇总销售数据

现在我们已经成功将Sales列中的数字提取并转换为整数,接下来就可以进行分组聚合操作了。我们可以使用groupby()方法按Category列进行分组,然后对numeric_sales求和。

LAIKA
LAIKA

LAIKA 是一个创意伙伴,您可以训练它像您(或您想要的任何人)一样写作。

下载
# 按Category汇总所有商品销售额
total_sales_per_category = numeric_sales.groupby(df['Category']).sum()
print("\n按类别汇总的所有商品销售额:")
print(total_sales_per_category)

输出结果:

按类别汇总的所有商品销售额:
Category
Chair      15
Cushion     8
Mats       12
Table       4
Name: Sales, dtype: int64

进阶应用:条件性销售额汇总

有时,我们可能需要根据额外的条件进行聚合,例如只统计“已支付(Paid == 'Yes')”的商品销售额。在这种情况下,我们需要在提取数字之前,先对数据进行条件筛选或预处理。

一种有效的方法是使用Series.where()方法。where()方法根据条件替换DataFrame或Series中的值。如果条件为真,则保留原始值;如果为假,则替换为指定的值。在这里,如果Paid不是'Yes',我们将Sales列的值替换为'0',这样在后续提取数字时,这些项就会被计为0。

# 仅汇总已支付(Paid == 'Yes')的商品销售额
paid_sales_processed = df['Sales'].where(df['Paid'] == 'Yes', other='0')

# 从处理后的Sales列中提取数字并转换为整数
numeric_paid_sales = paid_sales_processed.str.extract('^(\d+)', expand=False).astype(int)

# 按Category汇总已支付商品销售额
total_paid_sales_per_category = numeric_paid_sales.groupby(df['Category']).sum()
print("\n按类别汇总的已支付商品销售额:")
print(total_paid_sales_per_category)

输出结果:

按类别汇总的已支付商品销售额:
Category
Chair       3
Cushion     8
Mats       12
Table       4
Name: Sales, dtype: int64

通过where方法,我们有效地将未支付的销售额在提取阶段就“归零”,从而实现了精确的条件聚合。

注意事项与最佳实践

  1. 正则表达式的精确性:str.extract的强大之处在于其对正则表达式的支持。确保你的正则表达式能够准确匹配目标数据,同时避免意外匹配。例如,如果数字可能出现在字符串的中间,^就不适用,可能需要更复杂的模式。
  2. 数据类型转换:在进行数值计算前,务必将提取的字符串转换为适当的数值类型(如int或float)。
  3. 错误处理:如果str.extract未能匹配到任何内容,它将返回NaN。尝试将NaN直接转换为int会引发错误。在实际应用中,你可能需要在使用astype(int)之前,先用fillna(0)填充NaN值,或者使用pd.to_numeric(errors='coerce')来将无法转换的值变为NaN,然后再处理。
    # 示例:处理可能出现的NaN值
    # extracted_sales_with_nan = df['SomeColumn'].str.extract('^(\d+)', expand=False)
    # numeric_sales_safe = extracted_sales_with_nan.fillna('0').astype(int) # 先填充再转换
    # 或者
    # numeric_sales_safe = pd.to_numeric(extracted_sales_with_nan, errors='coerce').fillna(0).astype(int)
  4. 性能考虑:str.extract是Pandas的向量化字符串操作之一,通常比使用apply结合Python原生的字符串操作(如re.findall)更高效,尤其是在处理大型数据集时。

总结

本教程详细介绍了如何在Pandas DataFrame中处理包含混合数字和文本的列,并进行分组聚合。我们学习了以下关键技术:

  • 使用str.extract结合正则表达式从字符串中精确提取数值。
  • 通过astype()方法将提取的字符串转换为数值类型。
  • 利用groupby()和sum()方法进行数据聚合。
  • 通过where()方法实现条件性数据预处理和聚合。

掌握这些技术将大大提高您在处理非结构化或半结构化数据时的效率和灵活性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

514

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

746

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

215

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

532

2023.12.06

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号