0

0

Pandas DataFrame str.extract与loc赋值策略深度解析

聖光之護

聖光之護

发布时间:2025-10-04 18:12:02

|

392人浏览过

|

来源于php中文网

原创

pandas dataframe str.extract与loc赋值策略深度解析

本文深入探讨了在Pandas DataFrame中利用str.extract或str.split方法从字符串列中提取信息并赋值给新列或现有列的常见问题与解决方案。特别关注了在使用.loc进行条件性多列赋值时可能遇到的行为差异,提供了包括命名捕获组、to_numpy()转换以及str.split等多种专业且高效的实现策略,旨在帮助用户避免NaN赋值陷阱,优化数据处理流程。

1. 理解字符串提取与基本赋值

在数据分析中,我们经常需要从包含特定模式的字符串列中提取子串,并将其分离到不同的列中。Pandas提供了强大的str访问器,结合正则表达式(str.extract)或简单的分隔符(str.split)可以高效完成此任务。

假设我们有一个DataFrame df,其中包含一个名为 "Cypher" 的列,其值可能包含斜杠 /,例如 "d7/I" 或 "7/-"。我们的目标是将斜杠前后的部分分别提取到 "Cypher" 和 "Bass" 两列中。

首先,我们创建一个示例DataFrame:

import pandas as pd
import numpy as np

data = {
    'Cypher': ['', '2', '43', '64', '65', 'j9', 'j43', 'j65', 'j2', '/I', '7',
               '7/-', 'd6', 'ø7', 'ø2', 'd43', 'd64', 'd7', 'd7/I', 'ø65', 'ø7/I',
               '6', 'j7', 'd7/-', 'ø7/-', 'd7/VI']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df.head(10))

对于包含斜杠的字符串,str.extract('(.*)/(.*)') 可以有效提取出两部分:

extracted_data = df.Cypher.str.extract('(.*)/(.*)').dropna()
print("\n部分提取结果 (仅包含斜杠的行):")
print(extracted_data)

如果我们将提取结果直接赋值给新的列,这是可行的:

df_copy = df.copy()
df_copy[['Cyph', 'Bass']] = df_copy.Cypher.str.extract('(.*)/(.*)')
print("\n赋值给新列 'Cyph' 和 'Bass':")
print(df_copy.head(15))

上述操作会将提取到的值放入 'Cyph' 和 'Bass' 列,对于不匹配正则表达式的行,则会填充 NaN,这符合预期。

2. loc 条件赋值的“异常”行为解析

问题出在尝试使用 .loc 进行条件性赋值,并且目标列中包含原列名时。例如,当试图将提取结果直接赋回 "Cypher" 列并创建 "Bass" 列时:

# 尝试失败的例子 (会产生NaN)
# df.loc[df.Cypher.str.contains('/'), ['Cypher', 'Bass']] = df.Cypher.str.extract('(.*)/(.*)')

上述代码尝试对满足 df.Cypher.str.contains('/') 条件的行,将其 "Cypher" 和 "Bass" 列更新为 str.extract 的结果。然而,执行后,这些行对应的 "Cypher" 和 "Bass" 列会意外地变为 NaN。

原因分析:df.Cypher.str.extract('(.*)/(.*)') 的结果是一个新的 DataFrame,其列名默认是 0 和 1。当使用 .loc 进行多列赋值时,Pandas 会尝试根据列名进行对齐。由于源 DataFrame(str.extract 的结果)的列名 0, 1 与目标 DataFrame 的列名 Cypher, Bass 不匹配,Pandas 无法找到对应的列进行赋值,因此会用 NaN 填充。即使目标列中包含原列名,如果源 DataFrame的列名不对齐,也会出现问题。

3. 解决策略与专业实践

为了正确地实现条件性多列赋值,我们需要确保源数据与目标数据在结构和列名上能够正确匹配。以下是几种推荐的解决方案:

3.1 使用命名捕获组(Named Capture Groups)

通过在正则表达式中使用命名捕获组 (?P...),我们可以让 str.extract 返回的 DataFrame 拥有我们指定的列名。这样,在进行 .loc 赋值时,列名就能正确对齐。

甲骨文AI协同平台
甲骨文AI协同平台

专门用于甲骨文研究的革命性平台

下载
df_named_groups = df.copy()
mask = df_named_groups['Cypher'].str.contains('/')

# 使用命名捕获组,确保str.extract的输出DataFrame有正确的列名
extracted_df = df_named_groups['Cypher'].str.extract('(?P.*)/(?P.*)')

df_named_groups.loc[mask, ['Cypher', 'Bass']] = extracted_df.loc[mask]

print("\n解决方案1: 使用命名捕获组")
print(df_named_groups.head(15))

说明: (?P.*) 将匹配到的第一部分命名为 "Cypher" 列,(?P.*) 将第二部分命名为 "Bass" 列。这样,str.extract 返回的 DataFrame 就有了 'Cypher' 和 'Bass' 这两列,与 .loc 目标列名完全匹配,从而实现正确赋值。

3.2 转换为 NumPy 数组进行赋值

另一种方法是,在进行 .loc 赋值时,将 str.extract 的结果转换为 NumPy 数组。这样可以绕过列名对齐的机制,直接按位置进行赋值。

df_to_numpy = df.copy()
mask = df_to_numpy['Cypher'].str.contains('/')

# 提取数据,并转换为NumPy数组
extracted_array = df_to_numpy.loc[mask, 'Cypher'].str.extract('(.*)/(.*)').to_numpy()

df_to_numpy.loc[mask, ['Cypher', 'Bass']] = extracted_array

print("\n解决方案2: 转换为NumPy数组")
print(df_to_numpy.head(15))

说明: to_numpy() 将 str.extract 返回的 DataFrame 转换为一个二维 NumPy 数组。当对 DataFrame 的多列进行赋值时,如果右侧是一个 NumPy 数组,Pandas 会按位置将数组的列与目标列进行匹配。

3.3 简化正则,一次性处理所有情况

如果我们希望一次性处理所有行,无论是否包含斜杠,并且将结果分别放入 "Cypher" 和 "Bass" 列,可以使用更灵活的正则表达式。

df_simplified_regex = df.copy()

# 使用非捕获组 (?:...) 和可选匹配 ?
# (?:/(.*))? 表示斜杠及后面的内容是可选的
df_simplified_regex[['Cypher', 'Bass']] = df_simplified_regex['Cypher'].str.extract('([^/]*)(?:/(.*))?')

print("\n解决方案3: 简化正则,一次性处理所有行")
print(df_simplified_regex.head(15))

说明: ([^/]*) 捕获所有非斜杠字符作为 "Cypher" 部分。(?:/(.*))? 是一个非捕获组,表示斜杠 / 及其后面的任意字符 (.*) 都是可选的。如果存在斜杠,后面的内容会被捕获到 "Bass" 列;如果不存在,"Bass" 列将为 NaN。这种方法避免了条件筛选,直接作用于整个 DataFrame。

3.4 使用 str.split 进行分离

对于简单的分隔符(如斜杠 /),str.split 往往是更简洁、更直观的选择。它也可以直接展开为多列。

df_split = df.copy()

# 使用str.split并expand=True直接创建多列
df_split[['Cypher', 'Bass']] = df_split['Cypher'].str.split('/', expand=True)

print("\n解决方案4: 使用str.split")
print(df_split.head(15))

说明: str.split('/', expand=True) 会将 "Cypher" 列的字符串按 / 分割,并将结果展开成新的两列。如果字符串不包含 /,第二列将填充 NaN。这种方法通常比正则表达式更易读,且性能也很好。

4. 总结与注意事项

在Pandas中进行字符串提取和多列赋值时,理解Pandas如何处理DataFrame之间的列对齐至关重要。

  • 列名匹配是关键: 当源DataFrame(如 str.extract 的结果)与目标DataFrame(.loc 赋值的左侧)的列名不匹配时,Pandas会用 NaN 填充无法对齐的列。
  • 命名捕获组 (?P...) 是解决 str.extract 列名对齐问题的优雅方式,它直接为提取结果赋予目标列名。
  • to_numpy() 提供了一种强制按位置赋值的方法,绕过了列名对齐机制,适用于源DataFrame没有合适列名的情况。
  • str.split(..., expand=True) 是处理简单分隔符场景的最佳实践,它简洁高效,并且能够直接生成多列。
  • 选择合适的工具 对于复杂的模式匹配,str.extract 是首选;对于简单的分隔符,str.split 更为直观和高效。

通过掌握这些策略,您可以更有效地在Pandas中进行字符串数据清洗和重构,避免常见的赋值陷阱,确保数据处理的准确性和可靠性。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

249

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

742

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

234

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

11

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 2.8万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.5万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号