0

0

Python爬虫怎么加速_asyncio与aiohttp异步并发框架实现高并发极速抓取

P粉602998670

P粉602998670

发布时间:2026-03-15 09:36:13

|

576人浏览过

|

来源于php中文网

原创

aiohttp + asyncio 比 requests 快因协程非阻塞I/O复用,单线程高效并发;需用ClientSession复用连接、Semaphore控并发、TCPConnector调优参数,并注意SSL、重定向、Cookie、系统限制等细节。

python爬虫怎么加速_asyncio与aiohttp异步并发框架实现高并发极速抓取

asyncio + aiohttp 为什么比 requests 快得多

因为 requests 是同步阻塞的:发一个请求,必须等响应回来才能发下一个;而 aiohttp 配合 asyncio 能在等待网络 I/O 时立刻切走,去处理其他请求——本质是单线程内高效复用空闲时间,不是靠多线程/多进程硬堆资源。

常见错误现象:RuntimeWarning: coroutine 'ClientSession.get' was never awaited,本质是混用了 async/await 和普通函数调用;或者用 loop.run_in_executor 包裹 requests,结果并发数上不去还更慢。

  • 真正高并发(比如同时跑 100+ 请求)必须用 aiohttp.ClientSession 复用连接,不能每次 new 一个 session
  • aiohttp 默认不支持 HTTP/2,但对多数网站影响不大;若目标站强制 HTTP/2(如某些 CDN),得换 httpx
  • DNS 解析可能成为瓶颈:默认用系统 resolver,高并发下建议配 connector = TCPConnector(resolver=AsyncResolver())

怎么写一个能跑满带宽的异步爬虫主循环

核心是控制并发量、避免压垮目标站或触发风控,而不是“越多 task 越好”。asyncio.Semaphore 是最直接可控的方式。

使用场景:批量抓取列表页详情、分页接口、API 批量查询。

立即学习Python免费学习笔记(深入)”;

sem = asyncio.Semaphore(50)  # 控制最大并发为 50
<p>async def fetch(session, url):
async with sem:  # 每个请求先抢锁
try:
async with session.get(url, timeout=10) as resp:
return await resp.text()
except Exception as e:
return f"ERROR: {e}"</p><p>async def main():
connector = TCPConnector(limit=100, limit_per_host=30)
timeout = ClientTimeout(total=15)
async with ClientSession(connector=connector, timeout=timeout) as session:
tasks = [fetch(session, url) for url in urls]
results = await asyncio.gather(*tasks, return_exceptions=True)
return results</p>
  • limit 控制全局总连接数,limit_per_host 防止单域名被限流(关键!)
  • ClientTimeout 必须显式设,否则默认 5 分钟,出问题会卡死整个任务
  • return_exceptions=True 让失败不中断整个 gather,后续可统一过滤 isinstance(r, Exception)

遇到 SSL 错误、重定向、Cookie 怎么办

异步库对证书和跳转更敏感,不是所有 requests 里的“小技巧”都能平移。

Giiso写作机器人
Giiso写作机器人

Giiso写作机器人,让写作更简单

下载

常见错误现象:aiohttp.client_exceptions.ClientConnectorCertificateErrorTooManyRedirects、登录态丢失。

  • 跳过 SSL 验证(仅测试用):connector = TCPConnector(ssl=False),生产环境务必配好证书路径
  • 重定向控制:session.get(url, allow_redirects=False),手动处理 resp.headers.get('Location')
  • Cookie 不自动共享?确保用同一个 ClientSession 实例,它自带 CookieJar;如需预置,传 cookie_jar=CookieJar(unsafe=True)
  • UA 和 headers 必须每个请求都带:session.get(url, headers={"User-Agent": "xxx"}),别只在 session 初始化里设

为什么本地跑得飞快,一上服务器就变慢甚至超时

真实瓶颈往往不在 Python 代码,而在系统级配置和网络环境。

性能 / 兼容性影响:Linux 默认的 net.core.somaxconn 和文件描述符限制会直接掐断大量并发连接。

  • 检查 ulimit -n,至少设到 65535;sysctl net.core.somaxconn 建议 ≥ 65535
  • 云服务器(尤其低配 ECS)可能限制 outbound 连接数或 DNS QPS,换阿里云/腾讯云的 DNS(如 223.5.5.5)常有奇效
  • aiohttp 抓 HTTPS 站点时,OpenSSL 版本太旧(如 CentOS 7 自带 1.0.2)会导致 handshake 失败,升级到 1.1.1+ 更稳
  • 别在 async for line in response.content 里做繁重解析——流式读取本身快,但解析逻辑如果同步且耗 CPU,会拖慢整个 event loop

最易被忽略的一点:aiohttp 的 session 生命周期必须和 async context manager 严格匹配,漏掉 async with 或提前 close,会导致连接泄漏、后续请求莫名卡住或复用旧连接失败。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6500

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

368

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

447

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

336

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

776

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1973

2023.10.19

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号