Python如何自动下载文件_requests模块批量并发下载网页静态资源与高清图片

P粉602998670

发布时间：2026-03-18 13:01:54

265人浏览过

来源于php中文网

原创

requests.get()默认无超时且不校验下载完整性，易卡死或静默失败；应设timeout、HEAD预检、stream分块读取、异常捕获；并发用ThreadPoolExecutor而非asyncio；文件名需清洗+哈希防重；注意请求头与重定向陷阱。

python如何自动下载文件_requests模块批量并发下载网页静态资源与高清图片

requests.get() 下载单个文件时为啥总卡住或超时

默认 requests.get() 没设超时，遇到网络抖动或服务器响应慢就会一直挂起。更麻烦的是，它默认不校验 Content-Length 和实际接收字节数是否一致，下载中途断了你也未必知道。

实操建议：

立即学习“Python免费学习笔记（深入）”；

必须加 timeout=(3, 10)：第一个数是连接超时（秒），第二个是读取超时（秒），别只写一个数字
下载前先 HEAD 请求检查 Content-Length 和 Content-Type，跳过非图片/静态资源（比如 text/html）

用 stream=True + 分块读取，避免大文件吃光内存：

with open(path, 'wb') as f:
    for chunk in r.iter_content(chunk_size=8192):
        f.write(chunk)

记得捕获 requests.exceptions.Timeout、requests.exceptions.ConnectionError，别让一个失败拖垮整个批量任务

并发下载用 threading 还是 asyncio？requests 本身不支持异步

requests 是同步阻塞库，硬塞进 asyncio.gather() 不会变快，反而可能出错；用 threading 能提效，但线程数太多（>20）容易触发目标站反爬或本地端口耗尽。

实操建议：

立即学习“Python免费学习笔记（深入）”；

优先用 concurrent.futures.ThreadPoolExecutor 控制并发数，设 max_workers=5~10 更稳妥
别用 requests.Session() 跨线程复用——它不是线程安全的；每个线程自己建新 Session，或改用 httpx（支持 sync/async 且 Session 可共享）
如果真要异步，换 httpx.AsyncClient + asyncio.gather()，但得确保所有依赖也支持 async（比如保存文件要用 anyio.Path().write_bytes()，不能直接 open）

批量下载图片时文件名重复、路径非法、MIME 类型错乱

从 URL 提取文件名（比如 url.split('/')[-1]）极不可靠：可能没后缀、含查询参数、含中文、甚至路径里有 ../。更糟的是，有些图床返回 Content-Type: image/jpeg，但实际是 WebP；有些返回 application/octet-stream 却是 PNG。

Buildt.ai

AI驱动的软件开发平台，可以自动生成代码片段、代码分析及其他自动化任务

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

用 urllib.parse.unquote() 解码 URL，再用 os.path.basename() 提取，最后用 re.sub(r'[^a-zA-Z0-9._-]', '_', name) 清洗非法字符
别信 URL 后缀和响应头的 Content-Type，用 python-magic 或 imghdr.what() 检查真实类型（注意 imghdr 已废弃，推荐 magic.from_buffer()）
生成文件名时统一加哈希前缀（如 f"{hash(url)[:8]}_{clean_name}"），彻底避开重名问题
保存前确保目录存在：os.makedirs(os.path.dirname(path), exist_ok=True)

下载高清图时被 302 重定向到低清地址或登录页

很多图床（如 Pixiv、Unsplash）对未带 Referer / User-Agent 的请求降级返回缩略图，或者直接 302 到登录页；还有的通过 JS 动态加载真实 URL，requests 根本拿不到。

实操建议：

立即学习“Python免费学习笔记（深入）”；

手动加请求头：headers={'User-Agent': 'Mozilla/5.0', 'Referer': 'https://example.com/'}，Referer 必须和来源页一致
检查响应状态码：r.status_code == 302 且 'login' in r.headers.get('Location', '') 就说明需要鉴权，别盲目跟重定向
遇到 Content-Type: text/html 却预期是图片时，先打印 r.text[:200] 看是不是 HTML 登录框或 JS 脚本
真要处理 JS 渲染页面，别硬刚 requests —— 换 selenium 或 playwright，但那是另一层开销了

真正难的不是并发数调多大，而是每个请求都得单独判断响应是否“可信”：状态码、头字段、字节流特征、甚至响应体结构。漏掉一种情况，批量任务就静默污染一堆无效文件。

Python特征选择怎么做_过滤法方差分析/包装法/嵌入法树模型特征精准筛选

Python怎么求交集_Set对象intersection方法与列表推导提速比较

如何解决 Python keyboard 模块中按键检测延迟或需多次触发的问题

Python怎么处理乱码数据_Pandas读取特定系统编码与动态转码清洗

Python队列怎么用_queue模块与collections.deque性能对比

相关标签:

python httpx Session 堆 Length 线程并发 JS 异步 location https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用差分数组高效解决“通过操作使数组全为零”问题下一篇：如何使用 Python 从 Google 文档中提取评论内容及被批注的原文

作者最新文章

Django怎么配置日志_settings中LOGGING字典配置与按天轮转

2026-03-18 10:37

如何分析AWR中的等待事件_Top 10 Foreground Events解读

2026-03-18 10:37

如何解决分区表数据导入时性能极差_直接路径加载Direct Path与禁用索引加载

2026-03-18 10:38

什么是Java 9新增的Flow API_响应式流(Reactive Streams)的发布订阅标准接口解析

2026-03-18 10:38

什么是Java中的守护线程(Daemon)_后台服务线程的特性与JVM退出条件

2026-03-18 10:38

如何重命名分区_ALTER TABLE RENAME PARTITION规范化分区命名机制

2026-03-18 10:38

CSS如何让进度条加载变得平滑而不再卡顿

2026-03-18 10:39

Python开发工具选哪个好_PyCharm与VSCode优缺点对比

2026-03-18 10:39

Python鼠标怎么录制轨迹_pynput记录并精确回放复杂系统键盘鼠标点击操作

2026-03-18 10:40

mysql权限如何迁移到新服务器_mysql授权迁移方法

2026-03-18 10:40

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

337

2023.10.17

session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法：1、延长session的生存时间；2、使用持久化存储；3、使用cookie；4、异步更新session；5、使用会话管理中间件。

776

2023.10.18

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

448

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

954

2023.09.19

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

806

2023.08.10

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

532

2023.06.20

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板