0

0

Python怎么下载网络文件_requests库流式分块下载超大文件实战

P粉602998670

P粉602998670

发布时间:2026-03-15 13:06:01

|

354人浏览过

|

来源于php中文网

原创

requests.get()必须加stream=True防内存爆炸,配合iter_content分块读取、with自动关闭连接、raise_for_status检查状态、合理设置chunk_size(如8192),并手动处理重定向和断点续传。

python怎么下载网络文件_requests库流式分块下载超大文件实战

requests.get()不加stream=True会内存爆炸

直接用 requests.get(url) 下载几百MB以上的文件,Python进程会把整个响应体读进内存,容易触发 MemoryError 或让系统卡死。根本原因是默认 stream=False,底层会调用 response.content 一次性加载全部字节。

  • 必须显式传 stream=True,让 response 返回一个可迭代的流对象
  • 即使加了 stream=True,也得手动调用 response.iter_content(chunk_size=...) 才能分块读取
  • 别依赖 response.textresponse.json() —— 它们会强制读完并解码,完全违背流式初衷

chunk_size设太小或太大都影响性能

分块大小不是越大越好,也不是越小越“安全”。它直接影响I/O次数、内存占用和吞吐效率。

  • 默认 chunk_size=1(即每次只读1字节)—— 磁盘写入次数爆炸,CPU空转严重,实测比不流式还慢
  • 设成 8192(8KB)或 65536(64KB)是较稳妥的起点,兼顾缓存友好性和内存压力
  • 超过 1048576(1MB)后收益递减,且单次分配大缓冲区可能触发GC抖动,尤其在低内存环境
  • 如果目标是边下边校验(如计算SHA256),建议用 chunk_size=8192,避免哈希更新延迟过大

忘记response.close()或没用with语句会泄漏连接

流式下载完成后不释放连接,requests底层的 urllib3 连接池会持续占用 socket,反复执行几次就可能报 ConnectionError: Max retries exceeded 或卡在 Connecting 状态。

  • 最可靠写法是用 with requests.get(..., stream=True) as response: —— 自动调用 response.close()
  • 手动调用时,必须确保 response.close()finally 块里执行,哪怕遇到异常或提前 break
  • response.raise_for_status() 要放在 with 块内,否则异常抛出后连接可能没关干净

重定向和HTTP状态码处理容易漏掉

很多大文件URL实际是302跳转到CDN地址,而默认 requests.get() 会自动跟随重定向——但如果你没检查最终响应状态,可能下到一个403/404页面却浑然不觉。

ChatDOC
ChatDOC

ChatDOC是一款基于chatgpt的文件阅读助手,可以快速从pdf中提取、定位和总结信息

下载

立即学习Python免费学习笔记(深入)”;

  • allow_redirects=False 可以先捕获跳转,再决定是否手动跟进(比如需要记录真实URL)
  • 务必在循环读取前调用 response.raise_for_status(),否则 4xx/5xx 响应体也会被当作文件内容写入磁盘
  • 有些服务对无 User-Agent 的请求返回 403,记得加 headers:{"User-Agent": "Mozilla/5.0"}
  • 下载中断后想续传?标准 requests 不支持 Range 头自动恢复,得自己构造 headers={"Range": "bytes=1024-"} 并处理 206 响应

真正麻烦的不是怎么写完,而是怎么确保断点能续、内存不爆、连接不积压、错误不静默——这些细节全在 streamchunk_sizewithraise_for_status() 几个地方卡着。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

java中break的作用
java中break的作用

本专题整合了java中break的用法教程,阅读专题下面的文章了解更多详细内容。

120

2025.10.15

java break和continue
java break和continue

本专题整合了java break和continue的区别相关内容,阅读专题下面的文章了解更多详细内容。

262

2025.10.24

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

498

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

454

2023.11.14

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号