0

0

Pandas数据清洗:从日期字符串中移除年份后的多余信息

花韻仙語

花韻仙語

发布时间:2025-10-06 12:23:00

|

199人浏览过

|

来源于php中文网

原创

Pandas数据清洗:从日期字符串中移除年份后的多余信息

在数据分析和处理过程中,我们经常会遇到日期时间字符串格式不规范的问题。例如,一个日期字段可能包含日期以外的额外信息,如时间戳、备注或括号内的描述。当需要标准化这些日期字符串,仅保留到年份为止的部分时,Pandas结合正则表达式提供了强大而灵活的解决方案。本教程将深入探讨如何在Pandas DataFrame中高效地清理此类日期字符串,确保年份信息得以完整保留。

1. 准备示例数据

首先,我们创建一个示例dataframe来模拟实际数据情况:

import pandas as pd

data = {
    'id': [1, 2, 3],
    'date': ['21 July 2023 (abcd)', '22 July 2023 00:00:01', '23 July 2023 -abcda']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出:

陌言AI
陌言AI

陌言AI是一个一站式AI创作平台,支持在线AI写作,AI对话,AI绘画等功能

下载
原始DataFrame:
   id                   date
0   1    21 July 2023 (abcd)
1   2  22 July 2023 00:00:01
2   3    23 July 2023 -abcda

我们的目标是将date列转换为21 July 2023、22 July 2023、23 July 2023这样的标准化格式。

2. 方法一:使用 str.replace 结合正则表达式进行替换

此方法通过查找并替换年份后的所有字符来清理字符串。关键在于使用正则表达式的正向后瞻(Positive Lookbehind)特性,它允许我们匹配某个模式之后的内容,而不将该模式本身包含在匹配结果中。

# 方法一:使用 str.replace 结合正向后瞻
df['date'] = df['date'].str.replace(r'(?<=\b\d{4}\b).*', '', regex=True)
print("\n方法一结果 (str.replace):")
print(df)

输出:

方法一结果 (str.replace):
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023

*正则表达式解析 `r'(?'`:**

  • \b: 单词边界,确保\d{4}匹配的是一个独立的四位数,而不是其他数字序列的一部分。
  • \d{4}: 匹配任意四个数字,代表年份。
  • (?
  • .*: 匹配零个或多个任意字符(除了换行符)。这会匹配年份之后的所有内容。
  • regex=True: 必须设置为True以启用正则表达式匹配。

注意事项:

  • 此方法适用于删除任何四位数字年份之后的所有内容。
  • 如果需要针对特定的年份(例如,只删除“2023”之后的内容),可以将\d{4}替换为具体年份,如r'(?

3. 方法二:使用 str.extract 结合正则表达式进行提取

与替换不同,str.extract方法通过定义一个捕获组来直接提取符合特定模式的字符串部分。当日期字符串的格式相对固定,且我们明确知道要提取的模式时,此方法非常有效。

为了演示此方法,我们先重置DataFrame到原始状态。

# 重置DataFrame到原始状态
df = pd.DataFrame(data)

# 方法二:使用 str.extract 结合捕获组
df['date'] = df['date'].str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)
print("\n方法二结果 (str.extract):")
print(df)

输出:

方法二结果 (str.extract):
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023

正则表达式解析 r'(\d+ [a-zA-Z]+ \d{4})':

  • \d+: 匹配一个或多个数字,代表日期中的“日”。
  • [a-zA-Z]+: 匹配一个或多个字母,代表日期中的“月”(如July)。
  • \d{4}: 匹配四个数字,代表日期中的“年”。
  • (): 括号创建了一个捕获组。str.extract会提取这个捕获组匹配到的内容。
  • expand=False: 确保返回一个Series而不是DataFrame。

适用场景:

  • 当日期字符串的结构(日 月 年)相对固定,且您希望精确提取这部分内容时,str.extract是理想选择。
  • 如果原始字符串不完全符合提取模式,str.extract会返回NaN。

4. 其他考虑:str.split 的局限性与改进

用户最初尝试使用df['date'].str.rsplit('2023', 1).str.get(0),这种方法的问题在于它会移除分隔符2023,导致年份丢失。虽然可以通过后续拼接来弥补,但这增加了操作的复杂性。

一种结合str.split和正向后瞻的变体可以实现类似效果,但通常不如前两种方法高效或通用:

# 重置DataFrame到原始状态
df = pd.DataFrame(data)

# 方法三:使用 str.split 结合正向后瞻 (仅供参考,效率略低)
df['date'] = df['date'].str.split(r'(?<=2023)', regex=True).str.get(0)
print("\n方法三结果 (str.split with lookbehind):")
print(df)

输出:

方法三结果 (str.split with lookbehind):
   id          date
0   1  21 July 2023
1   2  22 July 2023
3   3  23 July 2023

此方法同样利用了正向后瞻(?仅限于处理特定年份(如2023),且通常需要两次str操作(str.split后跟str.get),效率可能略低于单一的str.replace或str.extract。

5. 总结与选择建议

在Pandas中清理日期字符串并保留年份,正则表达式是不可或缺的工具

  • *`str.replace(r'(?', '', regex=True)`:适用于当您需要移除年份之后的所有内容**,且年份本身是可变的四位数字时。它通过替换实现清理,通常更为通用。
  • str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False):适用于当您需要精确提取符合特定日期格式(日 月 年)的字符串时。它通过捕获并提取目标模式实现清理,当原始字符串结构稳定时表现优异。

根据您的具体需求和日期字符串的复杂程度,选择最合适的正则表达式和Pandas方法,可以大大提高数据清洗的效率和准确性。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

249

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

742

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

234

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 2.8万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.5万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号