0

0

利用Pandas的str.split高效拆分列并生成多列

碧海醫心

碧海醫心

发布时间:2025-11-01 13:31:34

|

864人浏览过

|

来源于php中文网

原创

利用Pandas的str.split高效拆分列并生成多列

本文详细介绍了如何在pandas dataframe中,通过一次赋值操作,将现有列的字符串值拆分为多个新列。我们将探讨使用`series.str.split`结合`n`参数和`expand=true`的两种主要方法,包括利用`dataframe.pop`进行原地修改,以及通过创建临时列并重新排序来保留原始列内容的策略,旨在帮助读者高效处理数据清洗和特征工程任务。

在数据处理过程中,我们经常需要从一个包含复合信息的字符串列中提取出多个独立的字段,并将它们作为新的列添加到DataFrame中。例如,一个文件路径可能包含年、月、日等信息,我们需要将其拆分出来以便后续分析。Pandas提供了强大的字符串操作功能,尤其是Series.str.split方法,能够高效地完成这项任务。

初始数据结构

假设我们有一个Pandas DataFrame,其中包含时间戳和文件路径信息,如下所示:

import pandas as pd

data = {'timestamp': ['2023-12-20 10:09:52.011'],
        'filename': ['2023/12/20/1703056183.log']}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

我们的目标是从filename列中提取出“年”、“月”、“日”作为新的列,并将其添加到DataFrame中,同时保持原始filename列的完整性或根据需求进行修改。

方法一:使用 DataFrame.pop() 结合 str.split()

这种方法适用于当原始列的内容可以被替换为拆分后的部分,或者不再需要原始列的完整内容时。DataFrame.pop() 方法会从DataFrame中移除指定的列并返回该列,这使得我们可以在链式操作中直接对其进行字符串拆分。

核心步骤是利用Series.str.split()方法。该方法有几个关键参数:

CodeBuddy
CodeBuddy

腾讯云AI代码助手

下载
  • sep:分隔符,本例中为/。
  • n:指定最大拆分次数。如果设置为3,则字符串最多被拆分成4部分。这对于我们只关心前三部分(年、月、日)而将剩余部分作为一整块处理非常有用。
  • expand=True:将拆分后的列表扩展为独立的列,并返回一个DataFrame。
# 示例代码
df_method1 = df.copy() # 使用副本,避免修改原始df
df_method1[['year', 'month', 'day', 'filename_suffix']] = df_method1.pop('filename').str.split('/', n=3, expand=True)

# 注意:这里为了清晰表达,将剩余部分命名为 'filename_suffix'
# 如果原始问题中希望 'filename' 列被替换为 '1703056183.log',则可以直接命名为 'filename'
# df_method1[['year', 'month', 'day', 'filename']] = df_method1.pop('filename').str.split('/', n=3, expand=True)

print("\n方法一:使用 pop() 后的DataFrame (filename列被修改):")
print(df_method1)

注意事项: 使用df.pop('filename')会从DataFrame中移除原始的filename列。拆分后的第四部分(即1703056183.log)将作为新的filename列(或此处示例中的filename_suffix)被添加。因此,原始的完整文件路径信息在filename列中将不再存在。

方法二:不使用 pop() 并重新排序以保留原始列

如果我们需要保留原始的filename列及其完整内容,同时添加新的拆分列,则可以采用以下策略:首先将拆分结果赋值给新的临时列,然后通过DataFrame的列选择和重新排序来达到预期效果。

# 示例代码
df_method2 = df.copy() # 使用副本,避免修改原始df

# 1. 将拆分结果赋给新的临时列。
# 注意:这里创建了一个额外的临时列 '_' 来接收最后一部分,以便后续丢弃。
df_method2[['year', 'month', 'day', '_']] = df_method2['filename'].str.split('/', n=3, expand=True)

# 2. 重新组织列的顺序。
# 首先获取所有列名,排除 'filename' 和 '_'。
# 然后将 'filename' 添加到列表的末尾(或你希望的位置)。
desired_columns_order = df_method2.columns.drop(['filename', '_']).tolist() + ['filename']
df_method2 = df_method2[desired_columns_order]

print("\n方法二:保留原始 filename 列并重新排序后的DataFrame:")
print(df_method2)

核心原理:

  1. df['filename'].str.split('/', n=3, expand=True) 会返回一个包含四列的新DataFrame。我们将这四列分别赋值给'year', 'month', 'day' 和一个临时的'_'列。
  2. 为了获得期望的列顺序(例如:timestamp, year, month, day, filename),我们首先构建一个不包含filename和临时_列的列名列表。
  3. 然后,我们将原始的filename列名追加到这个列表的末尾(或者任何你希望的位置),最后使用这个新的列名列表对DataFrame进行列选择和重新排序。

关键参数 n 和 expand=True

  • n 参数: 在str.split(sep, n=N)中,n参数指定了最大拆分次数。这意味着字符串最多会被拆分成N+1个部分。在本例中,n=3意味着会进行三次拆分,产生四列。这对于我们只需要路径的前几部分而将剩余部分视为一个整体非常有用。
  • expand=True: 这个参数至关重要。当设置为True时,str.split会返回一个DataFrame,其中每一列对应一个拆分后的部分。如果设置为False(默认值),它会返回一个Series,其中每个元素是一个包含所有拆分部分的列表。

总结

通过上述两种方法,我们可以灵活地从Pandas DataFrame的单个字符串列中提取并创建多个新列:

  • 方法一 (pop() 结合 str.split()): 适用于当原始列的内容可以被拆分后的部分替换,且不需要保留原始完整字符串的情况。其优点是代码简洁。
  • 方法二 (不使用 pop() 并重新排序): 适用于需要保留原始列的完整内容,同时添加新拆分列的情况。这种方法提供了更大的灵活性,但需要额外的列选择和排序步骤。

选择哪种方法取决于具体的业务需求和对原始数据列的处理策略。熟练掌握这些技巧,将极大地提高Pandas数据处理的效率和灵活性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

62

2025.12.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

633

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

589

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

172

2025.07.29

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.1万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

Excel 教程
Excel 教程

共162课时 | 14.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号