Pandas数据清洗：从日期字符串中移除年份后的多余信息

花韻仙語

发布时间：2025-10-06 12:23:00

199人浏览过

来源于php中文网

原创

Pandas数据清洗：从日期字符串中移除年份后的多余信息

在数据分析和处理过程中，我们经常会遇到日期时间字符串格式不规范的问题。例如，一个日期字段可能包含日期以外的额外信息，如时间戳、备注或括号内的描述。当需要标准化这些日期字符串，仅保留到年份为止的部分时，Pandas结合正则表达式提供了强大而灵活的解决方案。本教程将深入探讨如何在Pandas DataFrame中高效地清理此类日期字符串，确保年份信息得以完整保留。

1. 准备示例数据

首先，我们创建一个示例dataframe来模拟实际数据情况：

import pandas as pd

data = {
    'id': [1, 2, 3],
    'date': ['21 July 2023 (abcd)', '22 July 2023 00:00:01', '23 July 2023 -abcda']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出：

ChatDOC

ChatDOC是一款基于chatgpt的文件阅读助手，可以快速从pdf中提取、定位和总结信息

下载

原始DataFrame:
   id                   date
0   1    21 July 2023 (abcd)
1   2  22 July 2023 00:00:01
2   3    23 July 2023 -abcda

我们的目标是将date列转换为21 July 2023、22 July 2023、23 July 2023这样的标准化格式。

2. 方法一：使用 str.replace 结合正则表达式进行替换

此方法通过查找并替换年份后的所有字符来清理字符串。关键在于使用正则表达式的正向后瞻（Positive Lookbehind）特性，它允许我们匹配某个模式之后的内容，而不将该模式本身包含在匹配结果中。

# 方法一：使用 str.replace 结合正向后瞻
df['date'] = df['date'].str.replace(r'(?<=\b\d{4}\b).*', '', regex=True)
print("\n方法一结果 (str.replace):")
print(df)

输出：

方法一结果 (str.replace):
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023

*正则表达式解析 `r'(?<=\b\d{4}\b).'`：**

\b: 单词边界，确保\d{4}匹配的是一个独立的四位数，而不是其他数字序列的一部分。
\d{4}: 匹配任意四个数字，代表年份。
(?<=...): 正向后瞻断言。它表示只有当当前位置前面是\b\d{4}\b（即一个独立的四位数年份）时，才开始匹配。但这个年份本身不会被包含在匹配结果中。
.*: 匹配零个或多个任意字符（除了换行符）。这会匹配年份之后的所有内容。
regex=True: 必须设置为True以启用正则表达式匹配。

注意事项：

此方法适用于删除任何四位数字年份之后的所有内容。
如果需要针对特定的年份（例如，只删除“2023”之后的内容），可以将\d{4}替换为具体年份，如r'(?<=2023).*'。

3. 方法二：使用 str.extract 结合正则表达式进行提取

与替换不同，str.extract方法通过定义一个捕获组来直接提取符合特定模式的字符串部分。当日期字符串的格式相对固定，且我们明确知道要提取的模式时，此方法非常有效。

为了演示此方法，我们先重置DataFrame到原始状态。

# 重置DataFrame到原始状态
df = pd.DataFrame(data)

# 方法二：使用 str.extract 结合捕获组
df['date'] = df['date'].str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)
print("\n方法二结果 (str.extract):")
print(df)

输出：

方法二结果 (str.extract):
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023

正则表达式解析 r'(\d+ [a-zA-Z]+ \d{4})'：

\d+: 匹配一个或多个数字，代表日期中的“日”。
[a-zA-Z]+: 匹配一个或多个字母，代表日期中的“月”（如July）。
\d{4}: 匹配四个数字，代表日期中的“年”。
(): 括号创建了一个捕获组。str.extract会提取这个捕获组匹配到的内容。
expand=False: 确保返回一个Series而不是DataFrame。

适用场景：

当日期字符串的结构（日月年）相对固定，且您希望精确提取这部分内容时，str.extract是理想选择。
如果原始字符串不完全符合提取模式，str.extract会返回NaN。

4. 其他考虑：str.split 的局限性与改进

用户最初尝试使用df['date'].str.rsplit('2023', 1).str.get(0)，这种方法的问题在于它会移除分隔符2023，导致年份丢失。虽然可以通过后续拼接来弥补，但这增加了操作的复杂性。

一种结合str.split和正向后瞻的变体可以实现类似效果，但通常不如前两种方法高效或通用：

# 重置DataFrame到原始状态
df = pd.DataFrame(data)

# 方法三：使用 str.split 结合正向后瞻 (仅供参考，效率略低)
df['date'] = df['date'].str.split(r'(?<=2023)', regex=True).str.get(0)
print("\n方法三结果 (str.split with lookbehind):")
print(df)

输出：

方法三结果 (str.split with lookbehind):
   id          date
0   1  21 July 2023
1   2  22 July 2023
3   3  23 July 2023

此方法同样利用了正向后瞻(?<=2023)，在2023之后进行分割，并取第一部分。但它仅限于处理特定年份（如2023），且通常需要两次str操作（str.split后跟str.get），效率可能略低于单一的str.replace或str.extract。

5. 总结与选择建议

在Pandas中清理日期字符串并保留年份，正则表达式是不可或缺的工具。

*`str.replace(r'(?<=\b\d{4}\b).', '', regex=True)`：适用于当您需要移除年份之后的所有内容**，且年份本身是可变的四位数字时。它通过替换实现清理，通常更为通用。
str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)：适用于当您需要精确提取符合特定日期格式（日月年）的字符串时。它通过捕获并提取目标模式实现清理，当原始字符串结构稳定时表现优异。

根据您的具体需求和日期字符串的复杂程度，选择最合适的正则表达式和Pandas方法，可以大大提高数据清洗的效率和准确性。

如何使用 Python 正则表达式精准提取文本文件中的结构化参数与数值数据

如何使用正则表达式精准提取文本文件中的多组参数与对应频点数据

如何使用正则表达式精准提取文本文件中的多组参数与对应数据

Python正则表达式爬虫怎么写_re模块findall与search提取JSON字符串

提取网页中车型年份（如“2011”）的正则表达式实践指南