0

0

Pandas DataFrame日期字符串清洗:精确截取至年份的实用技巧

霞舞

霞舞

发布时间:2025-10-06 12:44:01

|

205人浏览过

|

来源于php中文网

原创

Pandas DataFrame日期字符串清洗:精确截取至年份的实用技巧

本教程介绍如何使用Pandas高效清洗DataFrame中的日期字符串,目标是保留“日 月 年”格式并移除年份后的所有多余信息。我们将探讨利用正则表达式配合str.replace进行替换和str.extract进行精确提取的两种主要方法,确保数据格式的标准化。

在数据分析和处理中,日期数据的格式不一致是一个常见问题。例如,一个日期列可能包含“21 july 2023 (abcd)”、“22 july 2023 00:00:01”或“23 july 2023 -abcda”等多种带有额外信息的字符串。我们的目标是将这些日期字符串统一清洗为标准的“日 月 年”格式,即保留年份信息,并删除年份之后的所有字符。

初始数据准备

首先,我们创建一个示例Pandas DataFrame来模拟这种常见的数据场景:

import pandas as pd

# 创建示例 DataFrame
data = {
    'id': [1, 2, 3],
    'date': [
        '21 July 2023 (abcd)',
        '22 July 2023 00:00:01',
        '23 July 2023 -abcda',
        '01 Jan 2024 (test)' # 增加一个不同年份的例子
    ]
}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

输出的原始 DataFrame 如下:

原始 DataFrame:
   id                 date
0   1  21 July 2023 (abcd)
1   2  22 July 2023 00:00:01
2   3  23 July 2023 -abcda
3   4   01 Jan 2024 (test)

方法一:使用 str.replace 结合正则表达式进行替换

pandas.Series.str.replace 方法允许我们使用正则表达式来查找并替换字符串中的模式。通过巧妙地构造正则表达式,我们可以定位到年份之后的所有字符并将其替换为空字符串,从而达到清洗的目的。

原理分析

我们使用的正则表达式是 r'(?

  • \b: 这是一个单词边界锚点,确保 \d{4} 匹配的是一个独立的四位数,而不是其他数字串的一部分。
  • \d{4}: 匹配任意连续的四个数字,这通常代表年份。
  • (?
  • .*: 匹配任意字符(除了换行符)零次或多次。

结合起来,(?

示例代码

# 方法一:使用 str.replace 结合正则表达式
df_replace = df.copy() # 复制 DataFrame 以便比较
df_replace['date'] = df_replace['date'].str.replace(r'(?<=\b\d{4}\b).*', '', regex=True)

print("\n使用 str.replace 清洗后的 DataFrame:")
print(df_replace)

输出结果:

使用 str.replace 清洗后的 DataFrame:
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023
3   4   01 Jan 2024

方法二:使用 str.extract 结合正则表达式进行提取

pandas.Series.str.extract 方法用于从字符串中提取符合特定正则表达式模式的子串。如果正则表达式中包含捕获组(即用括号 () 包裹的部分),str.extract 将返回这些捕获组的内容。

原理分析

我们使用的正则表达式是 r'(\d+ [a-zA-Z]+ \d{4})'。

  • (\d+ [a-zA-Z]+ \d{4}): 这是一个捕获组,它定义了我们希望提取的日期格式。
    • \d+: 匹配一个或多个数字,代表日期中的“日”。
    • ` `: 匹配一个空格。
    • [a-zA-Z]+: 匹配一个或多个英文字母,代表日期中的“月”。
    • ` `: 匹配一个空格。
    • \d{4}: 匹配四个数字,代表日期中的“年”。

这个正则表达式直接描述了我们期望的“日 月 年”格式。str.extract 会找到并返回与这个捕获组匹配的子串。

MakeSong
MakeSong

AI音乐生成,生成高质量音乐,仅需30秒的时间

下载

示例代码

# 方法二:使用 str.extract 结合正则表达式
df_extract = df.copy() # 复制 DataFrame 以便比较
df_extract['date'] = df_extract['date'].str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)

print("\n使用 str.extract 清洗后的 DataFrame:")
print(df_extract)

输出结果:

使用 str.extract 清洗后的 DataFrame:
   id          date
0   1  21 July 2023
1   2  22 July 2023
3   3  23 July 2023
4   4   01 Jan 2024

注意: expand=False 参数确保 str.extract 返回一个 Series 而不是 DataFrame,这使得我们可以直接赋值给原列。

其他考虑与注意事项

  1. 年份的灵活性: 上述两种方法都使用了 \d{4} 来匹配任意四位数字的年份,这使得它们能够处理不同年份的数据,而不仅仅是固定的“2023”。如果你的需求是只针对某个特定年份(例如,只在“2023”之后进行截断),你可以将 \d{4} 替换为具体的年份,例如 2023。

    • str.replace 示例:df['date'].str.replace(r'(?
    • str.extract 示例:df['date'].str.extract(r'(\d+ [a-zA-Z]+ 2023)', expand=False)
  2. 效率考量:

    • str.replace 和 str.extract 通常在一次操作中完成任务,对于大型数据集而言,它们的效率通常较高。
    • 避免使用多步 str 操作链,例如 df['date'].str.split(r'(?
  3. 数据类型转换: 清洗后的日期列仍然是 object(字符串)类型。为了进行更高级的日期时间操作(如排序、计算时间差、按时间维度聚合等),强烈建议将其转换为 Pandas 的 datetime 类型:

    df_cleaned = df_replace.copy() # 或 df_extract
    df_cleaned['date'] = pd.to_datetime(df_cleaned['date'], format='%d %B %Y')
    
    print("\n转换为 datetime 类型后的 DataFrame:")
    print(df_cleaned)
    print("\n'date' 列的数据类型:", df_cleaned['date'].dtype)

    输出结果:

    转换为 datetime 类型后的 DataFrame:
       id       date
    0   1 2023-07-21
    1   2 2023-07-22
    2   3 2023-07-23
    3   4 2024-01-01
    
    'date' 列的数据类型: datetime64[ns]

    注意: format='%d %B %Y' 参数非常重要,它告诉 pd.to_datetime 函数如何解析日期字符串(%d 代表日,%B 代表完整的月份名称,%Y 代表四位年份)。如果你的月份是缩写(如 "Jul"),则应使用 %b。

总结

本文介绍了两种在Pandas DataFrame中清洗日期字符串的有效方法,旨在保留“日 月 年”格式并移除年份后的冗余信息。str.replace 结合正向后瞻断言的正则表达式适用于删除特定模式后的内容,而 str.extract 则通过捕获组直接提取所需模式。在实际应用中,选择哪种方法取决于你的具体需求和个人偏好。无论选择哪种,最终都建议将清洗后的字符串转换为 datetime 类型,以便进行后续的日期时间分析。掌握这些技巧将大大提高你在数据预处理阶段的效率和准确性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

513

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

745

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

214

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

532

2023.12.06

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

31

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 3万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.5万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号