0

0

Pandas中日期时间字符串的正确转换与格式化

DDD

DDD

发布时间:2025-10-26 09:01:30

|

505人浏览过

|

来源于php中文网

原创

Pandas中日期时间字符串的正确转换与格式化

本文详细介绍了如何在pandas dataframe中高效、准确地将日期时间字符串转换为datetime对象。重点讲解了使用`pd.to_datetime()`函数处理复杂日期时间格式(如包含毫秒)的方法,并强调了正确格式化字符串(特别是`%f`用于毫秒)的重要性,以避免常见的类型转换错误。文章还提供了示例代码和最佳实践,确保数据转换的准确性和健壮性。

在数据分析和处理中,将字符串形式的日期时间数据转换为可操作的datetime对象是常见的任务。尤其在使用Pandas DataFrame时,这种转换需要特别注意格式匹配和方法选择,以避免诸如“'str' object cannot be interpreted as an integer”之类的类型错误。本教程将深入探讨如何利用Pandas的强大功能,特别是pd.to_datetime(),来有效处理日期时间字符串转换。

挑战:日期时间字符串转换中的常见陷阱

当我们从CSV或其他数据源中读取日期时间数据时,它们通常以字符串形式存在。例如,一个常见的日期时间格式可能是 YY:MM:DD HH:MM:SS:MS,如 23:09:28 16:03:40:7。如果尝试使用Python标准库中的datetime.datetime函数直接处理DataFrame中的一列,并使用不完整的格式字符串(例如 %y:%m:%d %H:%M:%S 缺少毫秒部分),则很容易遇到以下问题:

  1. 格式字符串不匹配:如果字符串中包含毫秒(如 :7),而格式字符串中没有对应的 %f(微秒),则转换会失败。
  2. 类型错误:当尝试将一个包含非数字字符的字符串部分解释为整数时,Python会抛出 TypeError: 'str' object cannot be interpreted as an integer。这通常发生在格式字符串与实际数据不符,或者尝试将整个字符串传递给期望整数参数的位置时。
  3. 效率问题:对DataFrame中的每一行使用循环和datetime.datetime进行转换效率低下,不符合Pandas的向量化操作原则。

解决方案:使用 pd.to_datetime() 进行高效转换

Pandas提供了专门用于日期时间转换的函数 pd.to_datetime(),它能够高效地处理整个DataFrame列,并提供了灵活的格式化选项。

1. 核心函数:pd.to_datetime()

pd.to_datetime() 是将字符串、数字或datetime对象转换为Pandas datetime对象的首选方法。它具有以下优点:

  • 向量化操作:直接应用于整个Series或DataFrame列,性能远超逐行循环。
  • 智能推断:在不指定format参数时,可以尝试自动推断多种日期时间格式。
  • 错误处理:提供 errors 参数来控制如何处理无法解析的值。
  • 时区支持:可以方便地进行时区转换。

2. 正确指定格式字符串

解决日期时间转换问题的关键在于精确匹配日期时间字符串的格式。对于 YY:MM:DD HH:MM:SS:MS 这样的格式,其中 MS 代表毫秒,我们需要使用 %f 来匹配微秒(Python的 datetime 和 Pandas 的 to_datetime 都使用 %f 来表示微秒,即使输入是毫秒,也会被解析为微秒,例如 7 会被解析为 7000 微秒)。

下表列出了一些常用的格式代码:

代码 含义 示例
%y 两位数年份 23
%Y 四位数年份 2023
%m 月份(01-12) 09
%d 日期(01-31) 28
%H 小时(24小时制,00-23) 16
%M 分钟(00-59) 03
%S 秒(00-59) 40
%f 微秒(000000-999999) 7000 (对于输入7)

因此,对于 23:09:28 16:03:40:7 这样的字符串,正确的格式字符串应该是 "%y:%m:%d %H:%M:%S:%f"。

3. 示例代码

假设我们有一个Pandas DataFrame df,其中包含一个名为 RunStartTime 的列,其数据格式如前所述。

首先,我们创建一个示例DataFrame:

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {'RunStartTime': ['23:09:28 16:03:40:7', '23:10:01 09:15:22:123', '24:01:15 23:59:59:999']}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("\nRunStartTime 列的数据类型:", df['RunStartTime'].dtype)

输出:

AI Room Planner
AI Room Planner

AI 室内设计工具,免费为您的房间提供上百种设计方案

下载
原始DataFrame:
           RunStartTime
0   23:09:28 16:03:40:7
1  23:10:01 09:15:22:123
2  24:01:15 23:59:59:999

RunStartTime 列的数据类型: object

现在,使用 pd.to_datetime() 进行转换,并指定正确的格式字符串:

# 使用 pd.to_datetime() 转换日期时间字符串
# 注意:格式字符串中 %y 代表两位数年份,%f 代表微秒
df['RunStartTime_dt'] = pd.to_datetime(df['RunStartTime'], format="%y:%m:%d %H:%M:%S:%f")

print("\n转换后的DataFrame:")
print(df)
print("\nRunStartTime_dt 列的数据类型:", df['RunStartTime_dt'].dtype)

输出:

转换后的DataFrame:
           RunStartTime       RunStartTime_dt
0   23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
1  23:10:01 09:15:22:123 2023-10-01 09:15:22.000123
2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999

RunStartTime_dt 列的数据类型: datetime64[ns]

可以看到,RunStartTime_dt 列已成功转换为 datetime64[ns] 类型,并且毫秒部分也得到了正确解析。

4. 仅获取日期部分

如果只需要日期部分,而不需要时间信息,可以使用 .dt.normalize() 方法。这个方法会将时间部分设置为午夜(00:00:00)。

# 仅获取日期部分
df['date_only'] = df['RunStartTime_dt'].dt.normalize()

print("\n仅包含日期部分的DataFrame:")
print(df)
print("\ndate_only 列的数据类型:", df['date_only'].dtype)

输出:

仅包含日期部分的DataFrame:
           RunStartTime       RunStartTime_dt  date_only
0   23:09:28 16:03:40:7 2023-09-28 16:03:40.000007 2023-09-28
1  23:10:01 09:15:22:123 2023-10-01 09:15:22.000123 2023-10-01
2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999 2020-01-15

date_only 列的数据类型: datetime64[ns]

虽然 date_only 列的数据类型仍然是 datetime64[ns],但其时间部分已被归一化为 00:00:00。

注意事项与最佳实践

  1. 处理无法解析的值:如果数据中可能存在无法解析的日期时间字符串,可以使用 errors 参数:

    • errors='raise' (默认):遇到错误时抛出异常。
    • errors='coerce':将无法解析的值转换为 NaT (Not a Time)。这在处理脏数据时非常有用。
    • errors='ignore':保留原始无法解析的值。
    df_err = pd.DataFrame({'time_str': ['23:09:28 16:03:40:7', 'invalid_date', '24:01:15 23:59:59:999']})
    df_err['parsed_time'] = pd.to_datetime(df_err['time_str'], format="%y:%m:%d %H:%M:%S:%f", errors='coerce')
    print("\n处理错误值的DataFrame:")
    print(df_err)

    输出:

    处理错误值的DataFrame:
              time_str               parsed_time
    0  23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
    1         invalid_date                      NaT
    2  24:01:15 23:59:59:999 2020-01-15 23:59:59.000999
  2. 性能优化

    • 如果日期时间格式是固定的,始终指定 format 参数。这会显著提高解析速度,因为Pandas不需要尝试多种格式进行推断。
    • 如果日期时间格式不固定但数量有限且有规律,可以尝试设置 infer_datetime_format=True。这会告诉Pandas尝试推断格式,并且在成功推断后,对于后续的相同格式字符串会加速解析。但在极端情况下,如果格式非常混乱,它可能会比指定 format 慢。
  3. 提取日期时间组件:一旦列被转换为 datetime64[ns] 类型,就可以使用 .dt 访问器来方便地提取年、月、日、小时等组件:

    print("\n提取日期时间组件:")
    print("年份:", df['RunStartTime_dt'].dt.year)
    print("月份:", df['RunStartTime_dt'].dt.month)
    print("日期:", df['RunStartTime_dt'].dt.day)
    print("小时:", df['RunStartTime_dt'].dt.hour)
    print("毫秒 (原始微秒除以1000):", df['RunStartTime_dt'].dt.microsecond / 1000)

    输出:

    提取日期时间组件:
    年份: 0    2023
    1    2023
    2    2020
    Name: RunStartTime_dt, dtype: int64
    月份: 0    9
    1    10
    2     1
    Name: RunStartTime_dt, dtype: int64
    日期: 0    28
    1     1
    2    15
    Name: RunStartTime_dt, dtype: int64
    小时: 0    16
    1     9
    2    23
    Name: RunStartTime_dt, dtype: int64
    毫秒 (原始微秒除以1000): 0      7.0
    1    123.0
    2    999.0
    Name: RunStartTime_dt, dtype: float64

总结

在Pandas中处理日期时间字符串时,pd.to_datetime() 是一个不可或缺的工具。通过正确理解和使用 format 参数,特别是针对包含毫秒的字符串使用 %f,可以高效且准确地将字符串数据转换为可操作的datetime对象。同时,利用 errors='coerce' 进行健壮性处理,以及 .dt 访问器提取日期时间组件,将极大地提升数据清洗和分析的效率。遵循这些最佳实践,可以避免常见的转换错误,并确保日期时间数据的完整性和可用性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

69

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

824

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

436

2024.06.27

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号