0

0

Python如何自动下载文件_requests模块批量并发下载网页静态资源与高清图片

P粉602998670

P粉602998670

发布时间:2026-03-18 13:01:54

|

265人浏览过

|

来源于php中文网

原创

requests.get()默认无超时且不校验下载完整性,易卡死或静默失败;应设timeout、HEAD预检、stream分块读取、异常捕获;并发用ThreadPoolExecutor而非asyncio;文件名需清洗+哈希防重;注意请求头与重定向陷阱。

python如何自动下载文件_requests模块批量并发下载网页静态资源与高清图片

requests.get() 下载单个文件时为啥总卡住或超时

默认 requests.get() 没设超时,遇到网络抖动或服务器响应慢就会一直挂起。更麻烦的是,它默认不校验 Content-Length 和实际接收字节数是否一致,下载中途断了你也未必知道。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 必须加 timeout=(3, 10):第一个数是连接超时(秒),第二个是读取超时(秒),别只写一个数字
  • 下载前先 HEAD 请求检查 Content-LengthContent-Type,跳过非图片/静态资源(比如 text/html
  • stream=True + 分块读取,避免大文件吃光内存:
    with open(path, 'wb') as f:
        for chunk in r.iter_content(chunk_size=8192):
            f.write(chunk)
  • 记得捕获 requests.exceptions.Timeoutrequests.exceptions.ConnectionError,别让一个失败拖垮整个批量任务

并发下载用 threading 还是 asyncio?requests 本身不支持异步

requests 是同步阻塞库,硬塞进 asyncio.gather() 不会变快,反而可能出错;用 threading 能提效,但线程数太多(>20)容易触发目标站反爬或本地端口耗尽。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 优先用 concurrent.futures.ThreadPoolExecutor 控制并发数,设 max_workers=5~10 更稳妥
  • 别用 requests.Session() 跨线程复用——它不是线程安全的;每个线程自己建新 Session,或改用 httpx(支持 sync/async 且 Session 可共享)
  • 如果真要异步,换 httpx.AsyncClient + asyncio.gather(),但得确保所有依赖也支持 async(比如保存文件要用 anyio.Path().write_bytes(),不能直接 open)

批量下载图片时文件名重复、路径非法、MIME 类型错乱

从 URL 提取文件名(比如 url.split('/')[-1])极不可靠:可能没后缀、含查询参数、含中文、甚至路径里有 ../。更糟的是,有些图床返回 Content-Type: image/jpeg,但实际是 WebP;有些返回 application/octet-stream 却是 PNG。

Buildt.ai
Buildt.ai

AI驱动的软件开发平台,可以自动生成代码片段、代码分析及其他自动化任务

下载

实操建议:

立即学习Python免费学习笔记(深入)”;

  • urllib.parse.unquote() 解码 URL,再用 os.path.basename() 提取,最后用 re.sub(r'[^a-zA-Z0-9._-]', '_', name) 清洗非法字符
  • 别信 URL 后缀和响应头的 Content-Type,用 python-magicimghdr.what() 检查真实类型(注意 imghdr 已废弃,推荐 magic.from_buffer()
  • 生成文件名时统一加哈希前缀(如 f"{hash(url)[:8]}_{clean_name}"),彻底避开重名问题
  • 保存前确保目录存在:os.makedirs(os.path.dirname(path), exist_ok=True)

下载高清图时被 302 重定向到低清地址或登录页

很多图床(如 Pixiv、Unsplash)对未带 Referer / User-Agent 的请求降级返回缩略图,或者直接 302 到登录页;还有的通过 JS 动态加载真实 URL,requests 根本拿不到。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 手动加请求头:headers={'User-Agent': 'Mozilla/5.0', 'Referer': 'https://example.com/'},Referer 必须和来源页一致
  • 检查响应状态码:r.status_code == 302'login' in r.headers.get('Location', '') 就说明需要鉴权,别盲目跟重定向
  • 遇到 Content-Type: text/html 却预期是图片时,先打印 r.text[:200] 看是不是 HTML 登录框或 JS 脚本
  • 真要处理 JS 渲染页面,别硬刚 requests —— 换 seleniumplaywright,但那是另一层开销了

真正难的不是并发数调多大,而是每个请求都得单独判断响应是否“可信”:状态码、头字段、字节流特征、甚至响应体结构。漏掉一种情况,批量任务就静默污染一堆无效文件。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

337

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

776

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

448

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

954

2023.09.19

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

806

2023.08.10

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

532

2023.06.20

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

3

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号