0

0

Python DataFrame 遍历为什么很慢

舞夢輝影

舞夢輝影

发布时间:2026-02-25 20:06:39

|

844人浏览过

|

来源于php中文网

原创

dataframe 不应逐行遍历,因其列式存储和向量化设计使 iterrows()、apply(axis=1) 等操作退化为低效 python 循环,性能比 numpy 向量化慢 10–100 倍;应优先使用向量化运算、内置方法或 numpy 函数。

python dataframe 遍历为什么很慢

因为 DataFrame 的设计目标不是逐行遍历,而是面向向量化的批量操作。用 for row in df.iterrows()df.apply()(尤其 axis=1)这类方式,本质上是把底层优化的 C/Fortran 数值计算退化为 Python 层的循环,丢失了 NumPy 的内存连续性、SIMD 指令和底层循环展开等关键加速机制。

底层数据结构不支持高效单行访问

Pandas DataFrame 是按列存储(column-major)的,每列是一个独立的 NumPy 数组。当你调用 iterrows() 时,它需要为每一行临时拼装一个包含各列对应位置元素的 Series —— 这涉及多次内存跳转、类型检查、索引对齐和对象封装,开销远超直接读取整列。

  • df.iloc[i] 看似简单,实际要检查索引类型、处理缺失值、构造新 Series 对象
  • df.loc['row_label'] 还要额外做哈希查找或二分搜索定位位置
  • 每次迭代都新建 Python 对象,触发频繁的内存分配与 GC

Python 解释器本身限制了循环速度

CPU 在执行纯 Python 循环时,每一步都要经过解释器字节码调度、动态类型判断、引用计数更新等操作。哪怕只是 sum(row['A'] * row['B']),也要为每个 row 做属性查找、类型推断、运算符分发——而同样的计算用 df['A'] * df['B'] 直接交给 NumPy,就变成一条紧凑的 C 循环,甚至自动向量化。

Bardeen AI
Bardeen AI

使用AI自动执行人工任务

下载
  • 纯 Python 循环通常比等效 NumPy 向量化操作慢 10–100 倍,数据量越大差距越明显
  • apply(func, axis=1) 表面简洁,但 func 若是 Python 函数,仍逃不开逐行调用开销

替代方案:用对方法,性能差十倍变快百倍

真正提速的关键不是“怎么遍历更快”,而是“根本不遍历”。优先使用:

立即学习Python免费学习笔记(深入)”;

  • 向量化运算:如 df['C'] = df['A'] + df['B']df['flag'] = df['score'] > 80
  • 内置方法:如 df.groupby().agg()df.rolling().mean()df.replace(),它们内部调用高度优化的 C 实现
  • NumPy 函数:对数值列直接用 np.log(df['x'])np.where(df['y'] > 0, 1, 0)
  • 真需逻辑复杂且无法向量化的场景,考虑 numba.jit 编译或转成 Polars/Modin 等更现代的 DataFrame 库

不复杂但容易忽略:写完一行遍历代码前,先问自己——这个操作能不能写成一整列的表达式?答案往往是肯定的。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

9

2026.01.31

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1559

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

240

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

127

2025.10.17

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

544

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

27

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

40

2026.01.06

batoto漫画官网入口与网页版访问指南
batoto漫画官网入口与网页版访问指南

本专题系统整理batoto漫画官方网站最新可用入口,涵盖最新官网地址、网页版登录页面及防走失访问方式说明,帮助用户快速找到batoto漫画官方平台,稳定在线阅读各类漫画内容。

127

2026.02.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号