0

0

Selenium WebDriver 内存泄漏问题:批量打标签页时的优化方案

碧海醫心

碧海醫心

发布时间:2026-03-02 23:35:02

|

949人浏览过

|

来源于php中文网

原创

Selenium WebDriver 内存泄漏问题:批量打标签页时的优化方案

本文详解 selenium 在频繁打开/关闭浏览器标签页时出现内存持续增长的根本原因,并提供基于定期重启 webdriver 实例的稳定、可落地的内存管理策略。

本文详解 selenium 在频繁打开/关闭浏览器标签页时出现内存持续增长的根本原因,并提供基于定期重启 webdriver 实例的稳定、可落地的内存管理策略。

在使用 Selenium 自动化采集网页数据时,若需批量处理数百个 URL(例如通过 window.open() 动态创建标签页),开发者常遇到一个典型瓶颈:即使调用 driver.close() 关闭标签页,Chrome 进程的内存占用仍持续攀升,且几乎不释放。如示例代码所示,循环 25 次开闭标签页后,任务管理器中 Chrome 的内存占用可能增长数百 MB——这并非由 Python 端缓存的数据导致,而是 Chromium 渲染进程与 WebDriver 会话间存在资源回收延迟或未完全清理的上下文(如 JS 执行环境、网络栈、GPU 缓存等)。driver.close() 仅关闭当前窗口句柄,但底层 Blink 渲染器、V8 实例及部分共享内存区域并未被及时归还操作系统。

✅ 推荐解决方案:分批复用 + 定期重置 WebDriver

最有效、经生产验证的实践是 避免长期持有单个 WebDriver 实例,转而采用「固定批次 + 显式退出 + 重建」策略。例如每处理 20–50 个页面后调用 driver.quit(),再新建实例继续执行。该方式虽引入毫秒级启动开销,却能彻底切断内存累积链路,保障整体稳定性。

讯飞开放平台
讯飞开放平台

科大讯飞推出的以语音交互技术为核心的AI开放平台

下载

以下为优化后的参考实现:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

def create_driver():
    options = Options()
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    options.add_argument("--disable-gpu")
    options.add_argument("--incognito")  # 减少扩展/缓存干扰
    # 可选:限制内存用量(Chromium 参数)
    options.add_argument("--memory-pressure-threshold-mb=512")
    return webdriver.Chrome(options=options)

def scrape_batch(urls, batch_size=30):
    driver = create_driver()
    base_url = "https://edition.cnn.com/"

    try:
        driver.get(base_url)
        for i, url in enumerate(urls):
            if i > 0 and i % batch_size == 0:
                # 每 batch_size 个页面后重置驱动
                driver.quit()
                print(f"✅ Batch {i//batch_size} completed. Restarting WebDriver...")
                driver = create_driver()
                driver.get(base_url)

            # 复用首个 tab,避免频繁 window.open
            driver.get(url)
            # ✨ 此处插入您的数据提取逻辑
            # e.g., title = driver.title; content = driver.find_element(...).text

            time.sleep(0.3)  # 防反爬节流,非必需

    finally:
        driver.quit()  # 确保最终释放

# 使用示例:模拟 600 个目标 URL
urls = ["https://edition.cnn.com/"] * 600
scrape_batch(urls, batch_size=40)

⚠️ 关键注意事项

  • 不要依赖 window.open() + close() 模拟多标签页:这是内存泄漏的主因。现代 Chromium 对动态标签页的资源隔离不完善,尤其在无用户交互场景下。
  • 禁用无关功能:--disable-gpu、--disable-dev-shm-usage 等参数可显著降低基础内存 footprint。
  • 避免全局 driver 实例:切勿在整个脚本生命周期内复用同一 driver 对象处理全部请求。
  • 监控与兜底:可在循环中加入内存检查(如 psutil.Process().memory_info().rss),超阈值时主动 quit() 并重建。
  • 替代思路(进阶):对极致性能要求场景,可考虑无头浏览器池(如 Playwright 的 browser.new_context())或 HTTP 客户端(Requests + BeautifulSoup)直取静态内容,绕过浏览器渲染层。

综上,Selenium 的内存问题本质是架构约束而非 Bug——它设计初衷并非高并发标签页调度。接受 quit()/new 的轻量重启成本,是平衡稳定性与资源消耗的最优解。 将“单实例长连接”思维切换为“短生命周期批处理”,即可从容应对 600+ 页面规模的自动化采集任务。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1016

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

813

2023.11.06

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

599

2023.08.10

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

514

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

678

2023.08.03

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号