0

0

Pandas数据清洗:标准化文本列以实现精准分组聚合

花韻仙語

花韻仙語

发布时间:2025-08-08 12:04:34

|

871人浏览过

|

来源于php中文网

原创

Pandas数据清洗:标准化文本列以实现精准分组聚合

本文将指导如何在Pandas DataFrame中对包含非标准字符的文本列进行清洗和标准化,特别是针对groupby操作前的名称统一问题。通过结合使用Python的正则表达式(re模块)和字符串的strip()方法,可以有效去除不必要的符号、数字和多余空格,确保数据能够正确分组并聚合,从而获得准确的统计结果。

在数据分析过程中,我们经常需要对数据进行分组聚合(groupby)操作以获取统计信息。然而,当分组依据的列包含非标准化的文本数据时,例如同一实体却有多种表示形式(如“michael”、“michael ()”),直接进行groupby会导致错误的分组结果。这是因为pandas会将这些细微差异的字符串视为不同的值。为了解决这一问题,我们需要在分组前对文本数据进行预处理,使其标准化。

核心清洗方法:正则表达式与字符串处理

解决此类问题的关键在于识别并移除文本中不必要的字符,如括号、连字符、数字以及多余的空格。Python的re模块(正则表达式)和字符串的内置方法提供了强大的工具来实现这一点。

  1. 使用正则表达式移除特定字符:re.sub(pattern, repl, string)函数可以根据指定的pattern(正则表达式模式)在string中查找匹配项,并用repl(替换字符串)替换它们。 对于本例,我们的目标是只保留英文字母和空格。因此,可以使用模式[^A-Za-z ]+。

    • []:字符集。
    • ^:在字符集内部表示“非”(取反)。
    • A-Za-z:匹配所有大写和小写英文字母。
    • ` `:匹配空格。
    • +:匹配前一个字符或字符集一次或多次。 结合起来,[^A-Za-z ]+表示匹配一个或多个非英文字母和非空格的字符。将其替换为空字符串''即可达到移除这些字符的目的。
  2. 使用strip()方法移除首尾空格: 在通过正则表达式移除字符后,可能会留下字符串首尾的多余空格(例如,“ Sarah ”)。字符串的strip()方法可以有效地移除这些首尾的空白字符。

以下是针对单个字符串的清洗示例:

import re

# 示例字符串
string1 = 'Sarah - (0)'
string2 = 'Michael ()'

# 步骤1: 使用正则表达式移除符号和数字
clean_string1_step1 = re.sub(r'[^A-Za-z ]+', '', string1) # 结果: 'Sarah  '
clean_string2_step1 = re.sub(r'[^A-Za-z ]+', '', string2) # 结果: 'Michael '

print(f"'{string1}' 经正则处理后: '{clean_string1_step1}'")
print(f"'{string2}' 经正则处理后: '{clean_string2_step1}'")

# 步骤2: 使用strip()移除首尾空格
final_string1 = clean_string1_step1.strip() # 结果: 'Sarah'
final_string2 = clean_string2_step1.strip() # 结果: 'Michael'

print(f"'{clean_string1_step1}' 经strip()处理后: '{final_string1}'")
print(f"'{clean_string2_step1}' 经strip()处理后: '{final_string2}'")

将清洗逻辑应用于Pandas DataFrame

在Pandas DataFrame中,我们需要将上述清洗逻辑封装成一个函数,然后使用.apply()方法将其应用于目标列。为了确保更彻底的标准化,我们还可以考虑将清洗后的字符串统一转换为小写或首字母大写,以避免大小写差异导致的分组问题(例如,“michael”和“Michael”)。

Uni-CourseHelper
Uni-CourseHelper

私人AI助教,高效学习工具

下载
import pandas as pd
import re

# 原始DataFrame数据
data = {
    'Name': ['Michael', 'Michael ()', 'Sarah - (0)', 'Sarah'],
    'Fee': [3, 4, 5, 5]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 定义清洗函数
def clean_name_for_groupby(name):
    """
    清洗名称字符串,移除特殊字符和多余空格,并统一首字母大写。
    """
    # 1. 使用正则表达式移除除字母和空格外的所有字符
    cleaned_str = re.sub(r'[^A-Za-z ]+', '', name)
    # 2. 移除首尾空格,并统一转换为首字母大写(例如:sarah -> Sarah)
    return cleaned_str.strip().capitalize()

# 将清洗函数应用于 'Name' 列,创建一个新的清洗后的列
df['Cleaned_Name'] = df['Name'].apply(clean_name_for_groupby)

print("\n清洗后的DataFrame (新增 'Cleaned_Name' 列):")
print(df)

# 根据清洗后的 'Cleaned_Name' 列进行分组聚合
df_grouped = df.groupby('Cleaned_Name')['Fee'].sum().reset_index()

print("\n分组聚合结果:")
print(df_grouped)

代码解释:

  1. 导入必要的库:pandas用于数据操作,re用于正则表达式。
  2. 创建原始DataFrame:模拟了问题中给出的数据结构。
  3. 定义clean_name_for_groupby函数
    • 它接受一个字符串name作为输入。
    • re.sub(r'[^A-Za-z ]+', '', name):执行核心的字符移除操作。
    • .strip():移除可能存在的首尾空白。
    • .capitalize():将字符串的第一个字符转换为大写,其余字符转换为小写。这有助于统一“sarah”和“Sarah”为“Sarah”。如果需要全部小写,可以使用.lower()。
  4. 应用清洗函数:df['Name'].apply(clean_name_for_groupby)将此函数逐个应用于Name列的每个元素,并将结果存储在新列Cleaned_Name中。
  5. 执行分组聚合:现在,我们可以安全地使用Cleaned_Name列进行groupby().sum()操作,得到期望的聚合结果。

注意事项

  • 正则表达式的灵活性:本例中的[^A-Za-z ]+模式适用于只保留英文字母和空格。如果你的数据中包含其他需要保留的字符(如数字、中文、特定符号等),你需要相应地调整正则表达式模式。例如,要保留数字,可以将模式改为[^A-Za-z0-9 ]+。
  • 大小写敏感性:在清洗过程中,统一大小写(如使用.lower()或.capitalize())是确保分组准确性的重要一步,尤其当原始数据存在大小写不一致的情况时。
  • 性能考量:对于非常大的数据集,apply()方法虽然方便,但在性能上可能不如Pandas的向量化字符串方法(如str.replace()、str.contains()等)。然而,对于涉及复杂正则表达式的场景,apply()结合自定义函数通常是更直接和灵活的选择。

总结

对文本数据进行标准化是数据清洗中不可或缺的一步,尤其在进行分组聚合操作时。通过结合使用Python的re模块和字符串的strip()等方法,我们可以高效地处理非标准化的文本数据,将其转换为统一的格式,从而确保后续数据分析的准确性和可靠性。掌握这些技巧将大大提升你在处理真实世界数据时的效率和数据质量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

512

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

745

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

531

2023.12.06

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.1万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号