Pandas DataFrame高效查找：优化列表元素在列中的存在性检查

碧海醫心

发布时间：2025-11-02 13:47:19

534人浏览过

来源于php中文网

原创

Pandas DataFrame高效查找：优化列表元素在列中的存在性检查

本教程旨在解决在pandas dataframe中高效查找列表元素是否存在于某一列的问题。通过对比低效的嵌套循环方案与pandas提供的向量化操作，文章详细介绍了如何利用`in`操作符进行精确匹配，以及如何使用`str.contains()`等方法进行子字符串匹配。旨在指导读者采用更简洁、性能更优的代码，避免常见的迭代陷阱，从而显著提升数据处理效率。

引言：DataFrame中元素查找的挑战

在数据分析和处理过程中，我们经常需要检查一个给定列表中的元素是否出现在Pandas DataFrame的某一特定列中。例如，你可能有一个包含多个关键词的列表，需要找出DataFrame中哪些行包含了这些关键词。直观的解决方案往往是使用嵌套循环，但这在处理大型数据集时会导致性能瓶颈，代码执行效率低下。本教程将深入探讨如何利用Pandas的强大功能，以更高效、更“Pythonic”的方式解决这一问题。

低效的循环遍历方案

许多初学者在面对此类问题时，会自然地想到使用Python的for循环结合Pandas的iterrows()方法来逐行检查。然而，iterrows()本身就不是为高性能迭代设计的，因为它会为每一行生成一个Series对象，这涉及到额外的开销。当内部循环还需要进行字符串匹配（如子字符串查找）时，效率问题会更加突出。

考虑以下示例代码，它尝试计算每个流派的总播放量：

import pandas as pd

# 示例数据
spotify_data = pd.DataFrame({
    'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
    'Streams': [1000, 500, 800, 1200, 700]
})
genre_names = ['Pop', 'Rock'] # 需要查找的流派列表

streams_on_genre_inefficient = []
for genre in genre_names:
    streams = 0
    for index, row in spotify_data.iterrows():
        # 这里的 'in' 操作符是进行子字符串查找
        if genre in row['Genre']:
            streams += row['Streams']
    streams_on_genre_inefficient.append(streams)

print(f"低效方案计算结果: {streams_on_genre_inefficient}")
# 预期输出: [1800, 2200] (Pop出现在'Pop;Rock'和'Classical;Pop'中, Rock出现在'Pop;Rock'和'Rock'中)

这段代码的性能问题在于：

外部循环：遍历genre_names列表。
内部循环：spotify_data.iterrows()逐行迭代DataFrame，对于N行数据，会执行N次。
字符串查找：if genre in row['Genre']在每次内部循环中进行字符串子串匹配。

这导致了O(M N L)的近似时间复杂度，其中M是genre_names的长度，N是DataFrame的行数，L是Genre列中字符串的平均长度。在大数据量下，这种方法会变得非常慢。

高效的精确匹配：使用in操作符

如果你的需求是检查一个元素是否精确地存在于DataFrame Series的values（底层NumPy数组）中，那么可以直接使用Python的in操作符。这种方法利用了底层优化的数据结构，通常比手动遍历要快得多。

import pandas as pd

data = {'a': [1, 2, 3], 'b': [4, 5, 6], 'c':['apple','orange','banana']}
df = pd.DataFrame(data)

print(f"5 是否在 df['b'].values 中？ {5 in df['b'].values}")
print(f"'pear' 是否在 df['c'].values 中？ {'pear' in df['c'].values}")
print(f"'apple' 是否在 df['c'].values 中？ {'apple' in df['c'].values}")

输出示例:

5 是否在 df['b'].values 中？ True
'pear' 是否在 df['c'].values 中？ False
'apple' 是否在 df['c'].values 中？ True

注意事项：

此方法仅适用于精确匹配。它会检查整个元素是否相等，而不是作为子字符串存在。
使用.values访问底层NumPy数组通常比直接在Series上使用in操作符更高效，因为Series的in操作符会检查索引和值。

高效的子字符串匹配：利用Series.str.contains()

在原始问题中，if genre in row['Genre']实际上是进行子字符串查找。对于这类需求，Pandas提供了强大的Series.str访问器，其中str.contains()方法是进行模式匹配的理想选择。它支持正则表达式，并且是完全向量化的，这意味着它在C语言级别执行操作，效率远高于Python循环。

MidReal AI

MidReal AI是一款革命性的AI小说生成工具，同时也是一个文本互动冒险游戏平台。

下载

1. 检查单个子字符串是否存在

# 示例数据 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })

# 检查 'Pop' 是否作为子字符串存在于 Genre 列中
contains_pop = spotify_data['Genre'].str.contains('Pop', case=False, na=False)
print("\nGenre 列中包含 'Pop' 的行 (忽略大小写):")
print(spotify_data[contains_pop])

case=False表示忽略大小写，na=False表示将NaN值视为不包含模式。

2. 检查列表中任意一个子字符串是否存在

如果你想检查DataFrame列中的值是否包含genre_names列表中的任意一个元素，可以构建一个正则表达式模式，使用|（或）操作符。

genres_to_find = ['Pop', 'Rock']
# 构建正则表达式模式，例如 'Pop|Rock'
pattern = '|'.join(genres_to_find)

matching_rows = spotify_data['Genre'].str.contains(pattern, case=False, na=False)
print(f"\nGenre 列中包含 '{pattern}' 中任一元素的行:")
print(spotify_data[matching_rows])

结合子字符串匹配与数据聚合：重构原始需求

回到用户最初的需求：计算每个特定genre的总Streams。我们可以利用str.contains()的向量化能力，结合Pandas的条件筛选和聚合功能来高效实现。

# 示例数据和流派列表 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })
# genre_names = ['Pop', 'Rock']

streams_on_genre_vectorized_list = []
for genre in genre_names:
    # 使用str.contains进行向量化查找，返回一个布尔Series
    is_genre_present = spotify_data['Genre'].str.contains(genre, case=False, na=False)

    # 使用布尔Series进行条件筛选，然后对 'Streams' 列求和
    streams = spotify_data.loc[is_genre_present, 'Streams'].sum()
    streams_on_genre_vectorized_list.append(streams)

print(f"\n更高效的向量化方案计算结果 (列表): {streams_on_genre_vectorized_list}")

输出示例:

更高效的向量化方案计算结果 (列表): [1800, 2200]

这种方法避免了显式的Python循环遍历DataFrame的每一行，而是将字符串匹配和求和操作推送到Pandas的底层优化实现中，从而显著提升了性能。

总结与最佳实践

在Pandas DataFrame中进行元素查找时，请牢记以下最佳实践：

避免显式循环：尽量不要使用for index, row in df.iterrows():或df.apply(lambda row: ...)等逐行迭代的方式，尤其是在大数据集上。它们通常效率低下。
利用向量化操作：Pandas提供了大量高度优化的向量化方法，如Series.str访问器中的contains(), startswith(), endswith(), match()等，以及Series.isin()等。它们能够以C语言的速度执行操作。
区分精确匹配与子字符串匹配：
- 对于精确匹配单个元素是否存在于Series的values中，使用element in series.values。
- 对于精确匹配Series中的多个元素是否在另一个列表中，使用series.isin(list_of_elements)。
- 对于子字符串匹配，使用series.str.contains(pattern)。
构建高效模式：当查找多个子字符串时，通过'|'.join(list_of_strings)构建正则表达式模式，可以一次性完成多个条件的匹配。

通过采纳这些策略，你将能够编写出更简洁、更高效的Pandas代码，极大地提升数据处理的性能。

Python中逻辑“and”与按位“&”的本质区别

如何安全访问嵌套 JSON 数据并优雅处理缺失字段

Python中逻辑运算符and与位运算符&的本质区别

如何在 Python 中正确验证用户输入并循环重试无效输入

Python中逻辑“and”与按位“&”运算符的本质区别

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：深入理解Python命令行中-m参数的灵活用法：为何可以省略空格？下一篇：Pandas DataFrame 数据处理：基于分组的最小值索引提取

作者最新文章

动态按钮文本：基于 EDT/PDT 时区的 PHP 时间判断教程

2026-03-18 13:35

Polars 中高效实现字符串部分匹配过滤的完整教程

2026-03-18 13:48

如何在 Java 中通过用户输入初始化对象属性并正确调用 set 方法

2026-03-18 13:51

如何使用 Ant 将文件注入现有 JAR 并指定内部路径

2026-03-18 14:18

如何使用 Apache PDFBox 检测并提取 PDF 中嵌入的页面缩略图

2026-03-18 14:29

如何在外部页面跳转后为锚点元素动态添加 active 样式

2026-03-18 14:50

Go 中的结构体组合与接口嵌入：替代继承的优雅实践

2026-03-18 14:50

Windows 下 Go 插件编译失败的诊断与解决指南

2026-03-18 14:55

Go 中 nil 接口值无法进行类型断言到指针类型的原因与解决方案

2026-03-18 14:57

手机qq如何更改默认浏览器模式

2026-03-18 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

641

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

264

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

647

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

565

2023.09.20

c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符，并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数。

672

2023.09.20

c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍：1、直接赋值法，这种方法可以直接将数组的值进行初始化；2、不完全初始化法，。这种方法可以在一定程度上节省内存空间；3、省略数组长度法，这种方法可以让编译器自动计算数组的长度；4、二维数组初始化法等等。

618

2023.09.22

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板