Pandas 中高效筛选并清空缺失年份的日期值——正则与向量化方案详解

花韻仙語

发布时间：2026-03-08 11:39:16

705人浏览过

来源于php中文网

原创

Pandas 中高效筛选并清空缺失年份的日期值——正则与向量化方案详解

本文介绍如何在 Pandas DataFrame 中精准识别 date_from 列中未显式包含有效年份（如 2019–2025）的记录，并批量将对应行的 cleaned_date 设为 None；重点对比正则表达式单行写法与动态条件组合的向量化实现，兼顾简洁性与可维护性。

本文介绍如何在 pandas dataframe 中精准识别 `date_from` 列中**未显式包含有效年份（如 2019–2025）的记录**，并批量将对应行的 `cleaned_date` 设为 `none`；重点对比正则表达式单行写法与动态条件组合的向量化实现，兼顾简洁性与可维护性。

在数据清洗过程中，常遇到原始日期字符串格式混乱、年份信息缺失或隐含的问题。例如，输入数据中 date_from 列包含类似 "21 JUNE 23.59" 或 "18TH JUN 23:59" 的文本——它们虽含日月和时间，但未明确出现四位年份（如 2023），导致后续解析时 pandas 可能默认填充当前年或错误推断，污染 cleaned_date 字段。此时，需安全地将这些“年份信息不完整”的记录标记为无效（即设为 None），而非依赖模糊匹配或逐行循环（iterrows() 效率低且易出错）。

✅ 推荐方案一：正则表达式（简洁、高效、一行解决）

利用 str.contains() 的正则能力，用一个模式同时覆盖所有目标年份及 nan 字符串：

import pandas as pd

# 示例数据
df = pd.DataFrame({
    'x': [1, 2, 3, 4, 5, 6],
    'date_from': [
        '21 JUNE 23.59',
        '18TH JUN 23:59',
        '01TH JULY (23.59 HRS)',
        '28th June 2023',
        '5TH MAY 2023',
        'JUNE 27, 2023'
    ],
    'cleaned_date': [
        '2024-06-23', '2024-06-18', '2024-07-01',
        '2023-06-28', '2023-05-05', '2023-06-27'
    ]
})

# ✅ 核心逻辑：若 date_from 不含 'nan' 且不含 2019 或 2020–2025，则置 cleaned_date 为 None
pattern = r'nan|(?:2019|202[0-5])'
df.loc[~df['date_from'].astype(str).str.contains(pattern, case=False, na=False), 'cleaned_date'] = None

? 正则说明：

nan → 匹配字符串 "nan"（注意：na=False 可避免 NaN 值引发警告，但此处显式匹配字符串更稳妥）；

(?:2019|202[0-5]) → 非捕获组，匹配 2019 或 2020~2025；

case=False → 忽略大小写（适配 JUNE/june）；

~... → 取反，即“不包含任一有效年份标识”的行才触发赋值。

执行后，前 3 行因无年份信息被清空，后 3 行保留原值，结果符合预期。

Veed AI Voice Generator

Veed推出的AI语音生成器

下载

✅ 推荐方案二：动态条件组合（灵活、可读性强、易于扩展）

当需要支持非连续年份（如 2018, 2021, 2023, 2026）或运行时生成年份列表时，正则可能不够直观。此时推荐使用 numpy.logical_or.reduce 向量化组合多个 .str.contains() 条件：

import numpy as np

# 动态定义有效年份列表（支持任意顺序、跳年）
valid_years = ['nan', '2019', '2020', '2021', '2022', '2023', '2024', '2025']

# 构建布尔条件：date_from 是否包含任一有效标识
contains_any = np.logical_or.reduce([
    df['date_from'].astype(str).str.contains(year, case=False, na=False)
    for year in valid_years
])

# 取反后赋值：仅当完全不匹配任何有效标识时，清空 cleaned_date
df.loc[~contains_any, 'cleaned_date'] = None

该方法优势在于：

逻辑清晰：年份列表独立于代码逻辑，便于配置管理；
零正则负担：避免复杂正则调试，适合团队协作；
完全向量化：无 Python 循环，性能媲美原生 pandas 操作。

⚠️ 注意事项与最佳实践

永远避免 iterrows() 或 apply(lambda x: ...) 进行此类过滤：既低效又违背 pandas 向量化设计哲学；
astype(str) 是关键：确保 date_from 列含 NaN 或混合类型时仍能安全调用 .str. 方法；
na=False 参数不可省略：防止 str.contains() 在遇到 NaN 时返回 NaN 导致布尔索引失效；
区分字符串 'nan' 与缺失值 pd.NA/np.nan：若原始数据含真实缺失，建议先统一处理（如 df['date_from'].fillna('')）再匹配；
验证正则边界：如需严格匹配独立年份（避免 20230 被误判），可用单词边界 \b2023\b，但本例中因年份前后多为空格/标点，基础模式已足够鲁棒。

综上，无论是追求极简的正则方案，还是强调可维护性的动态列表方案，核心思想一致：用向量化布尔索引替代硬编码多重条件，以声明式语法精准定位并修正数据缺陷。这正是 pandas 高效数据清洗的典型范式。

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板