0

0

使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

碧海醫心

碧海醫心

发布时间:2025-09-25 10:20:28

|

403人浏览过

|

来源于php中文网

原创

使用字典为Pandas DataFrame添加分类列:处理子字符串匹配

本教程详细介绍了如何利用Python字典为Pandas DataFrame添加一个分类列。当字典的键是DataFrame中目标列文本的子字符串时,传统map方法不再适用。文章将展示如何结合使用apply方法与自定义lambda函数,高效地实现基于子字符串匹配的分类,并提供完整的代码示例及注意事项,确保数据分类的准确性和灵活性。

在数据分析和处理中,我们经常需要根据某些规则为dataframe中的数据添加分类标签。一个常见的场景是,我们有一个包含关键词到类别的映射字典,并希望根据dataframe某一列文本内容中是否包含这些关键词来为其分配相应的类别。然而,当字典的键并非dataframe列中的精确值,而是其子字符串时,标准的dataframe.map()方法便无法直接满足需求。本文将深入探讨如何优雅地解决这一问题。

遇到的挑战

假设我们有一个商品列表DataFrame,其中包含商品名称(Item列),以及一个将商品关键词映射到其类别的字典。例如:

category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal'
    ],
    'Cost': [15, 20, 10, 14]
}
df = pd.DataFrame(data)

我们期望的结果是为DataFrame添加一个Category列,根据Item列中的关键词从category_dict中查找对应的类别。如果直接使用df['Item'].map(category_dict),由于Item列中的值(如"apple from happy orchard")与字典键("apple")不完全匹配,map方法将返回NaN,无法达到预期效果。

解决方案:结合apply与自定义lambda函数

解决此问题的核心在于对DataFrame的每一行(或具体到每一单元格)应用一个自定义逻辑,该逻辑能够遍历字典,检查字典键是否为单元格文本的子字符串。Pandas的apply()方法结合Python的lambda函数和生成器表达式,能够高效地实现这一目标。

以下是实现这一功能的代码示例:

import pandas as pd

# 定义分类字典
category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

# 创建示例DataFrame
data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal',
        'banana smoothie' # 添加一个没有匹配项的示例
    ],
    'Cost': [15, 20, 10, 14, 12]
}
df = pd.DataFrame(data)

# 使用apply和lambda函数添加'Category'列
df['Category'] = df['Item'].apply(
    lambda item_text: next(
        (value for key, value in category_dict.items() if key in item_text),
        None
    )
)

print("原始DataFrame:")
print(pd.DataFrame(data))
print("\n添加分类列后的DataFrame:")
print(df)

运行上述代码,将得到如下输出:

原始DataFrame:
                          Item  Cost
0     apple from happy orchard    15
1   grape from random vineyard    20
2  chickpea and black bean mix    10
3    coffee cup with dog decal    14
4            banana smoothie    12

添加分类列后的DataFrame:
                          Item  Cost   Category
0     apple from happy orchard    15      fruit
1   grape from random vineyard    20      fruit
2  chickpea and black bean mix    10      beans
3    coffee cup with dog decal    14  tableware
4            banana smoothie    12       None

代码解析

  1. df['Item'].apply(...): apply()方法是Pandas DataFrame或Series的一个强大功能,它允许我们对Series中的每一个元素或DataFrame的每一行/列应用一个函数。在这里,我们将其应用于Item列,意味着对Item列中的每一个字符串执行一次指定的lambda函数。

  2. lambda item_text:: 这是一个匿名函数,它接收一个参数item_text,代表Item列中的当前字符串(例如,"apple from happy orchard")。

  3. next((value for key, value in category_dict.items() if key in item_text), None): 这是解决方案的核心逻辑。

    • (value for key, value in category_dict.items() if key in item_text): 这是一个生成器表达式。它遍历category_dict中的每一个键值对(key, value)。对于每个键key,它检查key是否作为子字符串存在于当前的item_text中。如果条件key in item_text为真,则生成器会产生对应的value。
    • next(generator, default): next()函数用于从迭代器(这里是生成器表达式)中获取下一个元素。
      • 当生成器产生第一个匹配的value时,next()会立即返回这个value。这意味着一旦找到第一个匹配的关键词,就会停止搜索,并返回该关键词对应的类别。
      • 如果生成器表达式遍历完整个字典,但没有找到任何匹配的key,next()函数会返回其第二个参数None。这确保了即使没有找到匹配项,Category列也不会引发错误,而是填充None。

注意事项与最佳实践

  1. 匹配顺序的重要性:next()函数会返回第一个匹配到的项。如果字典中存在重叠的关键词(例如,{'apple': 'fruit', 'red apple': 'red fruit'}),且item_text中同时包含这两个关键词,那么返回的类别将取决于category_dict.items()的遍历顺序。在Python 3.7+中,字典会保留插入顺序,因此通常会返回先插入的那个匹配项。如果匹配顺序很重要,请确保字典的定义顺序或考虑更复杂的匹配逻辑(例如,优先匹配更长的关键词)。

    Summarizer
    Summarizer

    基于 AI 的文本段落摘要生成器

    下载
  2. 性能考量:对于非常大的DataFrame,apply()方法虽然功能强大,但在纯Python循环中执行自定义逻辑可能会比Pandas内置的向量化操作慢。对于数百万行的数据,可以考虑使用更底层的字符串匹配库或对字典进行预处理(例如,使用正则表达式)来优化性能。然而,对于大多数常见规模的数据集,apply()方法通常足够高效。

  3. 大小写敏感性:key in item_text是大小写敏感的。如果需要进行不区分大小写的匹配,应在比较前将key和item_text都转换为小写或大写,例如key.lower() in item_text.lower()。

  4. 处理无匹配项:next()函数中的None作为默认值是处理无匹配项的优雅方式。根据业务需求,也可以将其替换为其他默认值(如'Other'、'Unknown'等),或者进行后续处理来识别未分类的数据。

总结

通过结合使用Pandas的apply()方法、Python的lambda函数和生成器表达式,我们可以灵活高效地为DataFrame添加基于子字符串匹配的分类列。这种方法不仅解决了传统map()方法的局限性,还通过next()函数的默认值参数,优雅地处理了无匹配项的情况。理解并掌握这一技巧,将极大地提升您在处理复杂文本数据分类任务时的效率和代码质量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

531

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

767

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.06

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号