0

0

JavaScript自动化测试_Puppeteer爬虫开发

夜晨

夜晨

发布时间:2025-11-23 23:23:02

|

630人浏览过

|

来源于php中文网

原创

puppeteer是google推出的node.js库,通过devtools协议控制chrome/chromium,支持无头或有界面模式,核心功能包括页面截图、生成pdf、爬取spa内容、模拟用户行为、拦截网络请求及性能分析。由于现代网站多依赖javascript动态渲染,传统爬虫工具如axios+cheerio难以获取完整数据,而puppeteer能真实加载js并等待页面渲染后再提取信息,适用于复杂动态页面的抓取与自动化测试。基础使用需安装puppeteer包,通过launch启动浏览器实例,newpage创建页面,goto导航,type、click等方法模拟操作,evaluate在页面上下文中执行dom操作并返回结果。在自动化测试中常用于端到端流程验证,如登录测试,结合jest可实现断言与报告生成。为避免被反爬,建议设置真实user-agent、禁用webdriver特征、添加随机延时、使用代理ip,并结合ocr处理验证码,同时复用浏览器实例以优化资源消耗。 puppeteer上手简单,功能强大,是javascript生态中自动化测试与爬虫开发的首选工具之一。

javascript自动化测试_puppeteer爬虫开发

JavaScript自动化测试和爬虫开发中,Puppeteer是一个非常强大的工具。它由Google推出,是一个Node.js库,提供高阶API来通过DevTools协议控制Chrome或Chromium浏览器。无论是模拟用户操作进行自动化测试,还是抓取复杂动态渲染的网页内容,Puppeteer都能高效完成。

什么是Puppeteer?

Puppeteer默认以无头模式(headless)运行Chrome,也可以配置为有界面模式运行。它的核心能力包括:

  • 页面截图或生成PDF
  • 爬取SPA(单页应用)内容
  • 模拟表单提交、键盘输入、点击等用户行为
  • 拦截和修改网络请求
  • 执行页面性能分析

由于现代网站大量使用JavaScript动态加载数据,传统的HTTP请求+DOM解析方式(如axios + cheerio)往往无法获取完整内容。Puppeteer能真正“打开”浏览器环境,等待JS执行完毕后再提取数据,非常适合处理这类场景。

安装与基础使用

初始化项目并安装Puppeteer:

立即学习Java免费学习笔记(深入)”;

npm init -y
npm install puppeteer

一个简单的爬虫示例:访问百度并搜索“Puppeteer”,然后获取结果标题:

免费语音克隆
免费语音克隆

这是一个提供免费语音克隆服务的平台,用户只需上传或录制一段 5 秒以上的清晰语音样本,平台即可生成与用户声音高度一致的 AI 语音克隆。

下载
const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  await page.goto('https://www.baidu.com');
  
  // 输入搜索关键词
  await page.type('#kw', 'Puppeteer');
  // 点击搜索按钮
  await page.click('#su');
  // 等待搜索结果加载
  await page.waitForSelector('#content_left');

  // 提取标题列表
  const titles = await page.evaluate(() => {
    const results = Array.from(document.querySelectorAll('#content_left .t a'));
    return results.map(a => a.innerText);
  });

  console.log(titles);
  await browser.close();
})();

自动化测试中的应用场景

Puppeteer常用于端到端(E2E)测试,验证用户真实操作流程是否正常。例如登录功能测试:

  • 打开登录页
  • 输入用户名密码
  • 点击登录按钮
  • 验证跳转或提示信息

结合测试框架如Jest,可实现自动断言和报告生成。例如:

test('用户登录成功', async () => {
  await page.goto('/login');
  await page.type('#username', 'testuser');
  await page.type('#password', '123456');
  await page.click('#login-btn');
  await page.waitForNavigation();

  const url = page.url();
  expect(url).toContain('/dashboard');
});

反爬策略与优化建议

使用Puppeteer爬虫时,容易被目标网站识别并封禁。以下是一些规避检测的方法:

  • 设置真实User-Agent:避免使用默认头信息
  • 禁用WebDriver特征:防止被navigator.webdriver检测
  • 随机延时操作:模拟人类输入节奏
  • 使用代理IP:轮换IP避免频率限制
  • 捕获并处理验证码:结合OCR或打码平台

同时,合理管理浏览器实例(复用page、限制并发)可提升资源利用率。

基本上就这些。Puppeteer功能强大,上手相对简单,是JavaScript生态中做自动化和爬虫的首选工具之一。掌握它,无论是写测试还是抓数据,都会更加得心应手。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1057

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

838

2023.11.06

go语言goto的用法
go语言goto的用法

本专题整合了go语言goto的用法,阅读专题下面的文章了解更多详细内容。

138

2025.09.05

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

6201

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

492

2023.09.01

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
HTML教程
HTML教程

共500课时 | 6.4万人学习

PHP自制框架
PHP自制框架

共8课时 | 0.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号