0

0

使用Pandas str.extract 与正则表达式高效处理混合数据列

心靈之曲

心靈之曲

发布时间:2025-11-26 13:49:12

|

677人浏览过

|

来源于php中文网

原创

使用pandas str.extract 与正则表达式高效处理混合数据列

本文深入探讨如何利用Pandas库的`str.extract`方法结合正则表达式,从包含混合类型数据的DataFrame列中精确提取特定模式。我们将详细介绍如何构建复杂的正则表达式以匹配多种字符串模式,并提供实用的代码示例,涵盖从数据准备到模式提取及结果统计的全过程,旨在帮助用户高效地清洗和分析非结构化文本数据。

引言:Pandas中混合数据列的挑战

在数据处理和分析中,我们经常会遇到从外部源(如Excel、CSV文件)导入的数据,其中某些列可能包含混合类型的数据。例如,一个列可能既包含纯数字,又包含带有特定标识符(如“AA”、“EE”、“EA+”、“EA-”等)的字符串。从这类混合列中识别并提取出我们感兴趣的特定文本模式,是数据清洗和特征工程中的一项常见任务。传统的字符串查找方法可能效率低下或难以处理复杂的模式,而Pandas提供的str.extract方法结合强大的正则表达式,则为解决这一问题提供了优雅且高效的方案。

pandas.Series.str.extract 方法介绍

pandas.Series.str.extract(pat, expand=True) 是一个非常强大的方法,它允许我们使用正则表达式从Series中的每个字符串中提取匹配的组。

  • pat: 必需参数,一个字符串形式的正则表达式。
  • expand: 布尔值,默认为True。如果为True,则返回一个DataFrame,其中每列对应正则表达式中的一个捕获组。如果为False,则返回一个Series/DataFrame,取决于捕获组的数量。

当正则表达式包含捕获组时,extract方法会为每个捕获组创建一个新的列。如果没有捕获组,或者我们只关心整个匹配项,则可以使用非捕获组或者直接让整个模式成为一个隐式捕获组。

构建有效的正则表达式:多模式匹配

问题的核心在于如何构建一个能够同时匹配多种目标模式的正则表达式。例如,我们可能需要从同一列中识别“EE”、“AA”、“EA+”和“EA-”这些不同的字符串标识符。

理解 | 运算符

在正则表达式中,| 符号表示“或”逻辑,允许我们匹配多个不同的模式。例如,EE|AA 将匹配字符串中出现的“EE”或“AA”。

处理特殊字符

某些字符在正则表达式中具有特殊含义,如 +、-、*、?、.、[、]、(、)、{、}、\、^、$。如果我们需要匹配这些字符本身,就必须使用反斜杠 \ 进行转义。例如,要匹配字面意义上的“EA+”,我们需要写成 EA\+。

避免常见错误

一个常见的错误是尝试使用方括号 [] 来表示多个字符串的“或”关系,例如 [EA+,AA,EA-]。在正则表达式中,方括号 [] 定义的是一个字符集,意味着匹配方括号内的任意单个字符。因此,[EA+,AA,EA-] 实际上会匹配 'E'、'A'、'+'、','、'-' 中的任意一个字符,而不是我们期望的整个字符串模式。正确的做法是使用 | 运算符。

结合上述原则,为了匹配“EE”、“AA”、“EA+”和“EA-”这四种模式,我们可以构建如下正则表达式: EE|EA[+-]|AA

  • EE: 匹配字符串 "EE"。
  • EA[+-]: 匹配 "EA" 后跟一个 + 或 - 字符([+-] 是一个字符集,表示匹配 + 或 - 中的任意一个)。
  • AA: 匹配字符串 "AA"。
  • |: 将上述三个模式连接起来,表示匹配其中任意一个。

实战示例:从混合列中提取特定模式

假设我们有一个DataFrame,其中包含一个名为“Nachfolger”的列,其中混合了数字和上述文本模式。

数据准备

首先,我们创建一个示例DataFrame来模拟这种情况:

一点PPT
一点PPT

一句话生成专业PPT,AI自动排版配图

下载
import pandas as pd
import numpy as np

# 模拟一个包含混合数据的DataFrame
data = {
    'ID': range(10),
    'Nachfolger': [
        '54;20',
        '----',
        '52;128AA;207;22;223',
        '138EE;34',
        '----',
        '139EE;36',
        '52;24',
        '52;227;27',
        '140EA+;38', # 示例中添加EA+
        '141EA-;40'  # 示例中添加EA-
    ]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
   ID          Nachfolger
0   0               54;20
1   1                ----
2   2  52;128AA;207;22;223
3   3             138EE;34
4   4                ----
5   5             139EE;36
6   6               52;24
7   7           52;227;27
8   8           140EA+;38
9   9           141EA-;40

逐步演示 str.extract

现在,我们使用前面构建的正则表达式来提取模式。为了确保正则表达式被正确解释,建议使用原始字符串(在字符串前加上 r),例如 r'(EE|EA[+-]|AA)'。

# 使用一个正则表达式提取所有目标模式
# 注意:这里我们将整个模式放在一个捕获组中,这样extract会返回匹配到的完整模式
df['Verknüpfung'] = df['Nachfolger'].str.extract(r'(EE|EA[+-]|AA)')

# 填充未匹配到的值,例如用0或NaN保持原样
# df['Verknüpfung'] = df['Verknüpfung'].fillna(0) # 如果需要填充为0
print("\n提取'EE', 'AA', 'EA+', 'EA-'后的DataFrame:")
print(df)

输出:

提取'EE', 'AA', 'EA+', 'EA-'后的DataFrame:
   ID          Nachfolger Verknüpfung
0   0               54;20         NaN
1   1                ----         NaN
2   2  52;128AA;207;22;223          AA
3   3             138EE;34          EE
4   4                ----         NaN
5   5             139EE;36          EE
6   6               52;24         NaN
7   7           52;227;27         NaN
8   8           140EA+;38         EA+
9   9           141EA-;40         EA-

从结果可以看出,str.extract 成功地从“Nachfolger”列中识别并提取了“AA”、“EE”、“EA+”和“EA-”这些模式,并将它们放入新的“Verknüpfung”列中。未匹配到的行则填充为 NaN。

提取后的数据处理与分析

提取出所需模式后,我们可以对新生成的列进行进一步的分析,例如统计各类模式的出现次数。

统计提取结果

# 统计不同Verknüpfung模式的出现次数
print("\nVerknüpfung模式统计:")
print(df['Verknüpfung'].value_counts(dropna=False)) # dropna=False会包含NaN的计数

输出:

Verknüpfung模式统计:
NaN    5
EE     2
AA     1
EA+    1
EA-    1
Name: Verknüpfung, dtype: int64

value_counts() 方法可以方便地统计每个唯一值的出现频率,dropna=False 参数确保 NaN 值也被计算在内。

注意事项与最佳实践

  1. 使用原始字符串(Raw String): 在Python中,正则表达式模式字符串前加上 r(例如 r'(EE|EA[+-]|AA)')可以将其定义为原始字符串。这可以避免反斜杠 \ 被解释为Python的转义字符,从而简化正则表达式的编写,尤其是在涉及路径或包含大量反斜杠的模式时。
  2. 正则表达式测试工具: 对于复杂的正则表达式,强烈建议使用在线工具(如 Regex101RegExr)进行测试和调试。这些工具可以实时显示匹配结果,并解释正则表达式的每个部分,极大地提高了开发效率和准确性。
  3. 性能考量: 对于非常大的DataFrame和极其复杂的正则表达式,str.extract 的性能可能会成为一个问题。在这种情况下,可以考虑使用其他库(如 re 模块)进行批量处理,或者优化正则表达式以减少回溯。然而,对于大多数常见用例,str.extract 已经足够高效。
  4. 处理 NaN 值: str.extract 在未找到匹配项时会返回 NaN。根据分析需求,你可以选择保留 NaN,使用 fillna() 方法填充为其他值(如 0 或空字符串),或者使用 dropna() 删除包含 NaN 的行。
  5. 多个捕获组: 如果你的正则表达式包含多个捕获组(例如 r'((\d+)(AA|EE));(\d+)'),str.extract 将返回一个DataFrame,每列对应一个捕获组。这对于提取结构化信息非常有用。

总结

pandas.Series.str.extract 方法结合正则表达式是处理Pandas DataFrame中混合数据列的强大工具。通过精心设计的正则表达式,我们可以从复杂的文本字符串中精确地识别并提取出所需的模式,从而为后续的数据清洗、转换和分析奠定基础。掌握正则表达式的语法和str.extract的用法,将显著提升你在数据处理任务中的效率和灵活性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

531

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 21.3万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号