0

0

Pandas DataFrame高效查找:优化列表元素在列中的存在性检查

碧海醫心

碧海醫心

发布时间:2025-11-02 13:47:19

|

534人浏览过

|

来源于php中文网

原创

Pandas DataFrame高效查找:优化列表元素在列中的存在性检查

本教程旨在解决在pandas dataframe中高效查找列表元素是否存在于某一列的问题。通过对比低效的嵌套循环方案与pandas提供的向量化操作,文章详细介绍了如何利用`in`操作符进行精确匹配,以及如何使用`str.contains()`等方法进行子字符串匹配。旨在指导读者采用更简洁、性能更优的代码,避免常见的迭代陷阱,从而显著提升数据处理效率。

引言:DataFrame中元素查找的挑战

在数据分析和处理过程中,我们经常需要检查一个给定列表中的元素是否出现在Pandas DataFrame的某一特定列中。例如,你可能有一个包含多个关键词的列表,需要找出DataFrame中哪些行包含了这些关键词。直观的解决方案往往是使用嵌套循环,但这在处理大型数据集时会导致性能瓶颈,代码执行效率低下。本教程将深入探讨如何利用Pandas的强大功能,以更高效、更“Pythonic”的方式解决这一问题。

低效的循环遍历方案

许多初学者在面对此类问题时,会自然地想到使用Python的for循环结合Pandas的iterrows()方法来逐行检查。然而,iterrows()本身就不是为高性能迭代设计的,因为它会为每一行生成一个Series对象,这涉及到额外的开销。当内部循环还需要进行字符串匹配(如子字符串查找)时,效率问题会更加突出。

考虑以下示例代码,它尝试计算每个流派的总播放量:

import pandas as pd

# 示例数据
spotify_data = pd.DataFrame({
    'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
    'Streams': [1000, 500, 800, 1200, 700]
})
genre_names = ['Pop', 'Rock'] # 需要查找的流派列表

streams_on_genre_inefficient = []
for genre in genre_names:
    streams = 0
    for index, row in spotify_data.iterrows():
        # 这里的 'in' 操作符是进行子字符串查找
        if genre in row['Genre']:
            streams += row['Streams']
    streams_on_genre_inefficient.append(streams)

print(f"低效方案计算结果: {streams_on_genre_inefficient}")
# 预期输出: [1800, 2200] (Pop出现在'Pop;Rock'和'Classical;Pop'中, Rock出现在'Pop;Rock'和'Rock'中)

这段代码的性能问题在于:

  1. 外部循环:遍历genre_names列表。
  2. 内部循环:spotify_data.iterrows()逐行迭代DataFrame,对于N行数据,会执行N次。
  3. 字符串查找:if genre in row['Genre']在每次内部循环中进行字符串子串匹配。

这导致了O(M N L)的近似时间复杂度,其中M是genre_names的长度,N是DataFrame的行数,L是Genre列中字符串的平均长度。在大数据量下,这种方法会变得非常慢。

高效的精确匹配:使用in操作符

如果你的需求是检查一个元素是否精确地存在于DataFrame Series的values(底层NumPy数组)中,那么可以直接使用Python的in操作符。这种方法利用了底层优化的数据结构,通常比手动遍历要快得多。

import pandas as pd

data = {'a': [1, 2, 3], 'b': [4, 5, 6], 'c':['apple','orange','banana']}
df = pd.DataFrame(data)

print(f"5 是否在 df['b'].values 中? {5 in df['b'].values}")
print(f"'pear' 是否在 df['c'].values 中? {'pear' in df['c'].values}")
print(f"'apple' 是否在 df['c'].values 中? {'apple' in df['c'].values}")

输出示例:

5 是否在 df['b'].values 中? True
'pear' 是否在 df['c'].values 中? False
'apple' 是否在 df['c'].values 中? True

注意事项:

  • 此方法仅适用于精确匹配。它会检查整个元素是否相等,而不是作为子字符串存在。
  • 使用.values访问底层NumPy数组通常比直接在Series上使用in操作符更高效,因为Series的in操作符会检查索引和值。

高效的子字符串匹配:利用Series.str.contains()

在原始问题中,if genre in row['Genre']实际上是进行子字符串查找。对于这类需求,Pandas提供了强大的Series.str访问器,其中str.contains()方法是进行模式匹配的理想选择。它支持正则表达式,并且是完全向量化的,这意味着它在C语言级别执行操作,效率远高于Python循环。

MidReal AI
MidReal AI

MidReal AI是一款革命性的AI小说生成工具,同时也是一个文本互动冒险游戏平台。

下载

1. 检查单个子字符串是否存在

# 示例数据 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })

# 检查 'Pop' 是否作为子字符串存在于 Genre 列中
contains_pop = spotify_data['Genre'].str.contains('Pop', case=False, na=False)
print("\nGenre 列中包含 'Pop' 的行 (忽略大小写):")
print(spotify_data[contains_pop])

case=False表示忽略大小写,na=False表示将NaN值视为不包含模式。

2. 检查列表中任意一个子字符串是否存在

如果你想检查DataFrame列中的值是否包含genre_names列表中的任意一个元素,可以构建一个正则表达式模式,使用|(或)操作符。

genres_to_find = ['Pop', 'Rock']
# 构建正则表达式模式,例如 'Pop|Rock'
pattern = '|'.join(genres_to_find)

matching_rows = spotify_data['Genre'].str.contains(pattern, case=False, na=False)
print(f"\nGenre 列中包含 '{pattern}' 中任一元素的行:")
print(spotify_data[matching_rows])

结合子字符串匹配与数据聚合:重构原始需求

回到用户最初的需求:计算每个特定genre的总Streams。我们可以利用str.contains()的向量化能力,结合Pandas的条件筛选和聚合功能来高效实现。

# 示例数据和流派列表 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })
# genre_names = ['Pop', 'Rock']

streams_on_genre_vectorized_list = []
for genre in genre_names:
    # 使用str.contains进行向量化查找,返回一个布尔Series
    is_genre_present = spotify_data['Genre'].str.contains(genre, case=False, na=False)

    # 使用布尔Series进行条件筛选,然后对 'Streams' 列求和
    streams = spotify_data.loc[is_genre_present, 'Streams'].sum()
    streams_on_genre_vectorized_list.append(streams)

print(f"\n更高效的向量化方案计算结果 (列表): {streams_on_genre_vectorized_list}")

输出示例:

更高效的向量化方案计算结果 (列表): [1800, 2200]

这种方法避免了显式的Python循环遍历DataFrame的每一行,而是将字符串匹配和求和操作推送到Pandas的底层优化实现中,从而显著提升了性能。

总结与最佳实践

在Pandas DataFrame中进行元素查找时,请牢记以下最佳实践:

  1. 避免显式循环:尽量不要使用for index, row in df.iterrows():或df.apply(lambda row: ...)等逐行迭代的方式,尤其是在大数据集上。它们通常效率低下。
  2. 利用向量化操作:Pandas提供了大量高度优化的向量化方法,如Series.str访问器中的contains(), startswith(), endswith(), match()等,以及Series.isin()等。 它们能够以C语言的速度执行操作。
  3. 区分精确匹配与子字符串匹配
    • 对于精确匹配单个元素是否存在于Series的values中,使用element in series.values。
    • 对于精确匹配Series中的多个元素是否在另一个列表中,使用series.isin(list_of_elements)。
    • 对于子字符串匹配,使用series.str.contains(pattern)。
  4. 构建高效模式:当查找多个子字符串时,通过'|'.join(list_of_strings)构建正则表达式模式,可以一次性完成多个条件的匹配。

通过采纳这些策略,你将能够编写出更简洁、更高效的Pandas代码,极大地提升数据处理的性能。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

641

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

264

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

647

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

565

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

672

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

618

2023.09.22

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

7

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号