并发编程综合案例实战：设计一个高性能的多线程网页爬虫系统

P粉602998670

发布时间：2026-03-04 09:57:15

100人浏览过

来源于php中文网

原创

asyncio + aiohttp 更适合网页爬虫，因其在等待网络i/o时自动切换协程，单线程可并发数百请求；而 threading 在阻塞时空转且调度开销大，吞吐受限。

并发编程综合案例实战：设计一个高性能的多线程网页爬虫系统

为什么 `asyncio` + `aiohttp` 比 `threading` 更适合网页爬虫

因为 DNS 解析、TCP 握手、TLS 协商、等待响应这些操作，90% 时间都在等网络 I/O，线程在这期间空转，调度开销反而拖慢整体吞吐。而 asyncio 在等待时自动切走，单线程就能并发跑几百个请求。

常见错误现象：threading.Thread 开 100 个线程后 CPU 不高但吞吐卡在 20 QPS，urllib.request 或 requests.get 阻塞主线程导致协程无法调度。

aiohttp.ClientSession 必须复用，每次新建会重建连接池，触发重复 DNS 查询和 TCP 握手
别在协程里调 time.sleep()，改用 await asyncio.sleep()
如果目标站点有反爬，aiohttp 的并发太快容易被封 IP，得加 semaphore 控制并发数，不是靠“多开线程”解决

如何安全控制并发数并避免被封

硬设 asyncio.Semaphore(10) 是最直接的方式，但它只管请求数，不管每个请求耗时差异大时的资源堆积问题。

使用场景：爬取 5000 个 URL，其中 30% 响应超 5 秒，其余 200ms 内返回；若不限流，短请求会被长请求阻塞在队列里。

用 asyncio.Semaphore 包裹 session.get() 调用，不是包裹整个 fetch() 函数
设置 timeout：传 aiohttp.ClientTimeout(total=10, connect=3)，避免单个请求卡死整个协程池
对 429、503 状态码做退避重试，但别用固定间隔，改用指数退避 + jitter：await asyncio.sleep(min(60, 0.5 * (2 ** attempt) + random.uniform(0, 0.1)))

`concurrent.futures.ThreadPoolExecutor` 什么时候还值得用

当你要解析大量 HTML（比如用 lxml 或 BeautifulSoup）且 CPU 密集度高时，纯 asyncio 反而变慢——Python 的 async 不释放 GIL，CPU 绑定任务必须进线程池。

Logomaster.ai

Logo在线生成工具

下载

性能影响：在协程中同步解析 10MB HTML，可能阻塞事件循环 200ms，导致其他请求超时；扔给 ThreadPoolExecutor 后，事件循环照常运转。

初始化 ThreadPoolExecutor(max_workers=4) 就够，再多反而因上下文切换增加开销
用 loop.run_in_executor(None, parse_html, html_text)，第一个参数别写 executor，否则无法被 event loop 正确回收
别把 requests.get 塞进去——这是典型的“用线程模拟异步”，既没解决 I/O 等待，又引入线程管理成本

怎么持久化结果又不拖慢爬取速度

直接写文件或发 INSERT INTO 会变成串行瓶颈，尤其磁盘 IO 或数据库连接池有限时，协程一等就全卡住。

容易踩的坑：open(...).write() 在协程里调用，或用 sqlite3.connect() 在主线程里反复创建连接。

批量写入：攒够 100 条再 executemany，用 asyncpg 或 aiomysql 替代同步驱动
文件落地用 asyncio.to_thread()（Python 3.9+）包装 json.dump 或 csv.writer，比自己建 ThreadPoolExecutor 更轻量
如果只是临时缓存中间结果，优先用内存结构（如 deque）+ 定期 flush，别每条都落盘

真正难的不是并发模型选型，是判断哪一步该 async、哪一步该 thread、哪一步该 batch——边界模糊时，先压测再切分。

在Java中开发简易爬虫程序_Java网络请求项目入门

在Java中开发简易爬虫数据保存_Java网络与IO综合项目

在Java中开发简易爬虫数据保存程序_Java网络与IO结合实践

如何使用Java实现简单爬虫程序_Java网络基础项目解析

在Java中开发简单爬虫程序思路_Java网络基础实战解析

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

爬虫并发编程 batch json beautifulsoup Session 循环堆 Event 线程多线程主线程 Thread 并发事件异步数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java 8新日期类中的ChronoUnit枚举_计算日期间隔单位的灵活方式下一篇：Java 中如何创建函数列表并统一调用

作者最新文章

猎豹浏览器怎么设置主页不被锁定_猎豹浏览器主页防护修改教程

2026-03-04 10:03

Win11怎么更改打印机默认设置_Windows11蓝牙和设备设置

2026-03-04 10:05

QQ浏览器怎么关闭视频自动播放_QQ浏览器流量保护功能教程

2026-03-04 10:05

什么是Java中的隐式转换与包装类缓冲_IntegerCache的范围与影响

2026-03-04 10:06

mysql如何增加字段_mysql alter table增加列

2026-03-04 10:07

mysql查询时如何使用查询缓存_mysql缓存查询流程

2026-03-04 10:08

什么是Java中的Optional类_优雅解决空指针异常的设计模式应用

2026-03-04 10:08

mysql如何选择适合的存储引擎_mysql应用场景解析

2026-03-04 10:10

CSS如何通过only-child选择唯一子元素_在孤立项上应用特定的css布局

2026-03-04 10:12

mysql如何使用UNION合并结果_mysql集合去重合并

2026-03-04 10:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

452

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

328

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

334

2023.10.17