0

0

Python 大量数据遍历的性能优化思路

舞夢輝影

舞夢輝影

发布时间:2026-02-11 19:02:40

|

527人浏览过

|

来源于php中文网

原创

应使用 itertools.islice 替代列表切片进行分页遍历,因其返回惰性迭代器、零拷贝、O(1)内存;不支持负索引或步长,不可回溯,需配合 list() 按需取值。

python 大量数据遍历的性能优化思路

itertools.islice 替代切片遍历大列表

Python 列表切片 [start:end] 会触发完整拷贝,对上百万元素的 list 做多次切片(比如分页处理),内存和时间开销陡增。真实场景里,你往往只需要逐段读取、不回溯、不随机访问——这时切片是错的抽象。

改用 itertools.islice,它返回迭代器,不复制数据,只按需推进:

from itertools import islice

错误:触发拷贝,O(n) 时间 + O(n) 内存

for chunk in [data[i:i+1000] for i in range(0, len(data), 1000)]: process(chunk)

正确:零拷贝,O(1) 内存,惰性求值

it = iter(data) while True: chunk = list(islice(it, 1000)) if not chunk: break process(chunk)

  • islice 不支持负索引或步长(step != 1),别硬套 [::2] 场景
  • 如果后续还要用原数据做索引查找,别全换成 islice——它消耗迭代器,不可重用
  • 在 PyPy 下,islice 的 C 层优化更明显;CPython 中优势也稳定,但别指望它加速单次小数据操作

避免在循环里反复调用 len()in 查找

高频遍历中,写 for i in range(len(items)): 看似自然,但每次迭代都调用 len()(虽然 CPython 有缓存,但语义上仍是冗余);更危险的是 if x in big_list:——它是 O(n) 线性扫描,嵌套在外部循环里直接变成 O(n²)。

实际优化很简单:

立即学习Python免费学习笔记(深入)”;

  • enumerate(items) 替代 range(len(items)),既得索引又得值,且只遍历一次
  • big_list 转成 setfrozenset(前提是元素可哈希),in 操作从 O(n) 降到平均 O(1)
  • 若需保持插入顺序且查得快,用 dict.fromkeys(big_list).keys() 构造有序去重视图(Python 3.7+ dict 有序)

注意:set 构建本身是 O(n),别在每次循环内重建;一次性构建,复用。

用生成器函数替代中间列表(尤其 map/filter 链)

result = list(filter(pred, map(func, data))) 是典型陷阱:三重遍历 + 两层临时列表。哪怕 data 是生成器,list() 也会强制展开全部。

iWebShop开源商城系统
iWebShop开源商城系统

iWebShop是一款基于PHP语言及MYSQL数据库开发的B2B2C多用户开源免费的商城系统,系统支持自营和多商家入驻、集成微信商城、手机商城、移动端APP商城、三级分销、视频电商直播、微信小程序等于一体,它可以承载大数据量且性能优良,还可以跨平台,界面美观功能丰富是电商建站首选源码。iWebShop开源商城系统 v5.14 更新日志:新增商品编辑页面规格图片上传优化商品详情页面规格图片与主图切

下载

直接写生成器表达式或函数,让数据流“边产边消”:

# 危险:全量加载、内存峰值高
bad = list(filter(lambda x: x > 0, map(lambda x: x * 2, huge_iterable)))

安全:单次遍历,常数内存

def process_stream(source): for x in source: y = x * 2 if y > 0: yield y

good = process_stream(huge_iterable)

后续可逐个消费:next(good), 或 for z in good: ...

  • 生成器函数比生成器表达式更容易调试(能加日志、断点)
  • 不要在生成器里做耗时 IO 或锁操作——它会阻塞整个流水线
  • itertools.chainitertools.compress 这类工具函数返回迭代器,优先于手写循环

NumPy/Pandas 不是银弹:警惕隐式类型转换和副本

很多人一见大数据就切 NumPy,但 np.array(data) 可能悄悄把 list[dict] 或混合类型转成 object dtype,失去向量化优势;df.copy()df['col'].apply(...) 也常触发整列副本。

关键判断点:

  • 先用 df.dtypesarr.dtype 确认是否真为数值型;object dtype 的 NumPy 数组比原生 list 还慢
  • df.loc[:, 'col'] = ... 赋值避免 SettingWithCopyWarning 引发的意外副本
  • 纯数值计算优先用 np.vectorize(简单函数)或 numba.jit(复杂逻辑),而不是 apply

真正的大规模文本或嵌套结构,Pandas 可能不如 polars 或流式 csv.DictReader + 生成器组合来得轻量可控。

性能优化最易被忽略的一点:你花半天调 islice,却忘了上游数据源本身是从磁盘逐行读的还是全 load 进内存的——IO 瓶颈永远压倒算法微调。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

73

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

4

2026.01.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

804

2023.08.22

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

47

2025.09.03

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

47

2025.09.03

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

47

2025.09.03

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

75

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

36

2025.11.16

2026春节习俗大全
2026春节习俗大全

本专题整合了2026春节习俗大全,阅读专题下面的文章了解更多详细内容。

68

2026.02.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号