0

0

如何基于首次出现的下划线分割 Pandas 列为两部分

霞舞

霞舞

发布时间:2026-01-17 10:12:20

|

172人浏览过

|

来源于php中文网

原创

如何基于首次出现的下划线分割 Pandas 列为两部分

本文介绍如何在 pandas 中精准地按**第一个下划线 `_`** 将字符串列拆分为两个新列(如 `gender` 和 `age`),避免 `str.split()` 默认行为导致的嵌套列表或多余下划线干扰问题。

数据清洗中,常需将类似 Male_85__and_over 这样的复合标识符按首个分隔符拆解为语义明确的字段。若直接使用 str.split('_', n=1),虽可限制分割次数,但 .str[1:] 会返回一个包含单个字符串的列表(如 ['85__and_over']),导致结果为 list 类型而非纯字符串,影响后续分析。

✅ 正确做法是使用正则提取 str.extract(),配合捕获组精准匹配「第一个 _ 前」和「第一个 _ 后(且不包含后续 _)」的内容:

test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_([^_]+)')
  • ([^_]+):匹配一个或多个非下划线字符(即首个 _ 前的所有内容);
  • _:字面量下划线,作为分隔符;
  • ([^_]+):匹配首个 _ 后、下一个 _ 之前的所有非下划线字符(即只取第一段有效内容)。

? 注意:此正则适用于「首个 _ 后仍有至少一个非 _ 字符」的场景(如 Male_85__and_over → gender="Male", age="85")。若需保留 _ 后全部内容(包括后续下划线),应改用:

标小兔AI写标书
标小兔AI写标书

一款专业的标书AI代写平台,提供专业AI标书代写服务,安全、稳定、速度快,可满足各类招投标需求,标小兔,写标书,快如兔。

下载
test[["gender", "age"]] = test["column_Name_pivoted"].str.extract(r'([^_]+)_(.*)')

其中 (.*) 表示“任意字符(含 _)零次或多次”,可完整捕获 85__and_over。

? 总结:

  • ✅ 优先用 str.extract() 替代链式 str.split().str[],语义清晰、结果类型安全;
  • ✅ 正则模式需根据业务逻辑选择:[^_]+(截断至下一 _)或 .*(捕获全部剩余内容);
  • ⚠️ 若原始数据存在无 _ 的行,str.extract() 对应位置将返回 NaN,建议提前用 test["column_Name_pivoted"].str.contains('_').all() 校验。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

180

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

278

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

253

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

121

2025.08.07

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

257

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

208

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1465

2023.10.24

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号