0

0

Puppeteer中.$eval()与.$$eval()的正确使用指南

花韻仙語

花韻仙語

发布时间:2025-12-04 11:43:20

|

361人浏览过

|

来源于php中文网

原创

puppeteer中.$eval()与.$$eval()的正确使用指南

本文深入探讨Puppeteer中`.$eval()`和`.$$eval()`这两种核心元素评估方法的区别与正确用法。我们将阐明它们在处理单个元素与多个元素时的行为差异,重点讲解`.$$eval()`回调函数接收数组参数时的处理策略,并通过实例代码演示如何有效利用这些方法进行网页数据抓取与自动化交互,包括模拟打字测试,并提供相关的最佳实践和注意事项。

理解.$eval()与.$$eval()的核心区别

在Puppeteer中,.$eval()和.$$eval()是用于在浏览器上下文中执行JavaScript代码的关键方法,它们允许我们对页面上的DOM元素进行评估和操作。尽管名称相似,但它们在处理目标元素数量和回调函数参数方面存在显著差异。

  • .$eval(selector, pageFunction, ...args): 这个方法用于选取第一个匹配selector的元素,并将其作为参数传递给pageFunction回调函数。如果找不到匹配的元素,则会抛出错误。它适用于只需要处理单个元素或第一个匹配元素的情况。

  • .$$eval(selector, pageFunction, ...args): 与.$eval()不同,.$$eval()会选取所有匹配selector的元素,并将这些元素的数组作为参数传递给pageFunction回调函数。如果找不到任何匹配元素,pageFunction将收到一个空数组。它适用于需要批量处理多个元素的情况。

关键差异点在于回调函数的参数类型:

  • .$eval()的回调函数接收的是单个DOM元素
  • .$$eval()的回调函数接收的是一个DOM元素数组

.$eval() 的基本用法

当我们需要从页面中提取特定元素的单个属性或执行单个操作时,.$eval()是理想选择。

示例:获取页面上第一个div元素的innerHTML。

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://example.com");

  // 等待 #words 元素出现
  const wordsSelector = await page.waitForSelector('#words');

  // 使用 .$eval 获取 #words 内部第一个 div 的 innerHTML
  const firstDivContent = await wordsSelector.$eval('div', element => element.innerHTML);
  console.log("第一个 div 的内容:", firstDivContent);

  await browser.close();
})();

在这个例子中,wordsSelector.$eval('div', ...)会找到#words元素内部的第一个div,并将该div元素作为element参数传递给回调函数。

.$$eval() 的正确用法与常见误区

初学者在使用.$$eval()时常犯的错误是,期望回调函数中的参数可以直接访问innerHTML或textContent,就像处理单个元素一样。然而,由于.$$eval()的回调函数接收的是一个元素数组,直接访问elements.innerHTML会导致undefined,因为数组本身没有innerHTML属性。

正确做法是遍历或映射这个元素数组,对每个元素进行操作。

AskAI
AskAI

无代码AI模型构建器,可以快速微调GPT-3模型,创建聊天机器人

下载

示例:获取#words内部所有.word元素的innerHTML。

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });

  // 假设页面上有cookie同意弹窗,先点击拒绝
  try {
    const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
    if (rejectAllButton) {
      await rejectAllButton.click();
    }
  } catch (error) {
    console.log("未找到cookie拒绝按钮或已处理。");
  }

  // 等待 #words 元素出现
  const wordsEl = await page.waitForSelector('#words');

  // 使用 .$$eval 获取 #words 内部所有 .word 元素的 innerHTML
  // 注意:回调函数接收的是一个元素数组,需要使用 map 进行处理
  const allWordsContent = await wordsEl.$$eval('.word', elements =>
    elements.map(el => el.innerHTML)
  );
  console.log("所有单词的 HTML 内容:", allWordsContent);

  await browser.close();
})();

在这个修正后的例子中,elements是一个DOM元素数组。我们使用map方法遍历这个数组,对每个el(即每个.word元素)提取其innerHTML,最终得到一个包含所有单词HTML内容的数组。

选择innerHTML还是textContent?

在提取网页内容时,innerHTML和textContent是两个常用的属性,但它们的应用场景不同:

  • innerHTML: 返回元素的完整HTML内容,包括其子元素的标签和文本。如果你需要分析或保留元素的结构信息,innerHTML会很有用。
  • textContent: 返回元素的纯文本内容,不包含任何HTML标签。它会递归地获取所有子节点的文本内容,并连接起来。对于大多数数据抓取任务,尤其是需要获取用户可见文本时,textContent通常是更简洁和合适的选择。

建议: 如果你的目标是获取纯文本数据(例如,单词、段落),优先使用textContent。这可以避免处理不必要的HTML标签,使数据更干净。

进阶应用:模拟用户交互与自动化

.$eval()和.$$eval()结合Puppeteer的其他API,可以实现复杂的网页自动化任务。以下是一个模拟打字测试的完整示例,展示了如何获取当前活动单词并模拟键盘输入。

const puppeteer = require("puppeteer");

(async () => {
  let browser;
  try {
    browser = await puppeteer.launch({ headless: true }); // 设置 headless: false 可见浏览器操作
    const [page] = await browser.pages();

    // 启用请求拦截,提高性能和稳定性,只允许必要的资源加载
    await page.setRequestInterception(true);
    page.on('request', request => {
      const allowedUrls = [
        "https://monkeytype.com",
        "https://www.monkeytype.com",
        "https://api.monkeytype.com",
        "https://fonts.google.com", // 允许加载字体
      ];
      if (allowedUrls.some(url => request.url().startsWith(url))) {
        request.continue();
      } else {
        request.abort(); // 阻止不必要的请求
      }
    });

    await page.goto("https://monkeytype.com/", { waitUntil: "domcontentloaded" });

    // 处理Cookie同意弹窗
    try {
      const rejectAllButton = await page.waitForSelector(".rejectAll", { timeout: 5000 });
      if (rejectAllButton) {
        await rejectAllButton.click();
        console.log("已点击拒绝所有Cookie。");
      }
    } catch (error) {
      console.log("未找到Cookie拒绝按钮或已处理,继续执行。");
    }

    // 等待第一个活动单词出现
    await page.waitForSelector("#words .word.active");

    const wordsContainer = await page.$("#words"); // 获取单词容器元素

    // 循环模拟打字过程
    console.log("开始模拟打字...");
    for (let i = 0; i < 50; i++) { // 限制循环次数,避免无限循环
      try {
        // 使用 .$eval 获取当前活动单词的纯文本内容
        const activeWordText = await wordsContainer.$eval(".word.active", el =>
          el.textContent.trim() // 使用 textContent 获取纯文本并去除首尾空格
        );
        console.log(`正在输入: "${activeWordText}"`);
        // 模拟键盘输入单词,并在每个单词后输入一个空格
        await wordsContainer.type(activeWordText + " ");
      } catch (e) {
        // 如果找不到 .word.active 元素,说明打字可能已结束或出现异常
        console.log("未找到活动单词,可能已完成打字或发生错误。", e.message);
        break; // 退出循环
      }
      // 可以在此处添加短暂延迟,模拟更真实的用户输入速度
      // await page.waitForTimeout(50);
    }

    // 滚动到结果区域并截图
    const resultsElement = await page.$("#result");
    if (resultsElement) {
      await resultsElement.evaluate(el => el.scrollIntoView()); // 滚动到结果视图
      await resultsElement.screenshot({ path: "typing-results.png" });
      console.log("打字结果已保存到 typing-results.png");
    } else {
      console.log("未找到结果区域。");
    }

  } catch (error) {
    console.error("自动化过程中发生错误:", error);
  } finally {
    if (browser) {
      await browser.close();
      console.log("浏览器已关闭。");
    }
  }
})();

注意事项与最佳实践

  1. 错误处理: 在实际项目中,务必使用try...catch...finally块来捕获可能发生的错误,并确保浏览器在任何情况下都能正确关闭。
  2. 等待元素: 使用page.waitForSelector()或element.waitForSelector()是至关重要的。这可以确保在尝试操作元素之前,它们已经加载并呈现在DOM中,避免因元素未加载而导致的脚本失败。
  3. 请求拦截: page.setRequestInterception(true)并结合page.on('request', ...)可以有效控制页面加载的资源,提高自动化脚本的执行效率和稳定性,尤其是在处理资源密集型网站时。
  4. 纯文本提取: 优先使用textContent而不是innerHTML来获取元素的纯文本内容,除非你确实需要保留HTML结构。
  5. 循环限制: 在进行循环操作(如模拟打字)时,最好设置一个最大循环次数,以防止因页面状态异常而导致无限循环。
  6. 上下文: .$eval()和.$$eval()的回调函数是在浏览器页面的上下文中执行的,因此它们无法直接访问Node.js环境中的变量或函数。所有需要的数据都必须通过...args参数传递。

总结

.$eval()和.$$eval()是Puppeteer中强大且灵活的DOM元素评估工具。理解它们之间关于目标元素数量和回调函数参数的根本区别,是编写高效、健壮的Puppeteer脚本的关键。通过结合使用这些方法与其他Puppeteer API,开发者可以实现从简单的数据抓取到复杂的网页自动化交互的各种任务。遵循最佳实践,如错误处理、元素等待和请求拦截,将大大提高自动化脚本的稳定性和可靠性。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

554

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

477

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

656

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

551

2023.09.20

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

2

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.2万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号