Puppeteer网页抓取：解决图片元素选择器失效及src属性获取问题

花韻仙語

发布时间：2025-11-25 18:33:14

850人浏览过

来源于php中文网

原创

Puppeteer网页抓取：解决图片元素选择器失效及src属性获取问题

本文深入探讨了在使用puppeteer进行网页抓取时，图片元素选择器失效以及如何正确获取图片`src`属性的常见问题。通过分析具体案例，文章提供了优化css选择器的方法（如使用类选择器或属性前缀匹配），并强调了使用`el.getattribute('src')`而非`el.src`来确保准确获取图片源地址的关键技巧。同时，还介绍了 puppeteer 的最佳实践，如页面等待和资源管理，以提升抓取脚本的稳定性和效率。

1. 理解Puppeteer中的元素选择器与属性获取挑战

在使用Puppeteer进行网页自动化和数据抓取时，开发者常会遇到选择器无法准确命中目标元素，或即使命中也无法正确获取其属性值的问题。这在处理图片src属性时尤为常见。一个看似直观的CSS选择器，如'#mm-preview-outer > div.mm-preview > img'或'img[alt="meme generator image preview"]'，可能在实际运行中失效，导致无法获取到图片链接。这通常是由于以下几个原因：

页面动态加载： 目标元素可能在初始DOM加载完成后才通过JavaScript动态插入或修改。
选择器不够健壮： 过于依赖层级结构或不稳定的属性（如alt文本，它可能为空、变化或被JavaScript覆盖）的选择器容易失效。
属性获取方式不当： 对于某些HTML属性，直接访问DOM元素的JavaScript属性（如el.src）可能与获取HTML标签上的原始属性值（如el.getAttribute('src')）行为不同。

2. 优化图片元素选择器

为了提高选择器的健壮性和准确性，我们应该优先使用更稳定、更具识别性的CSS类名或属性。

不推荐的选择器示例：

/* 过于依赖层级，易受页面结构变化影响 */
'#mm-preview-outer > div.mm-preview > img'
/* 依赖alt属性，可能不稳定或不存在 */
'img[alt="meme generator image preview"]'

推荐的优化选择器：

针对目标图片元素，如果它有一个独特的类名，应优先使用该类名。例如，如果图片具有mm-img类：

/* 使用精确的类选择器 */
'img.mm-img'

如果类名可能包含变体（如mm-img-1, mm-img-2），可以使用属性前缀匹配：

/* 使用属性前缀匹配，^= 表示以...开头 */
'img[class^=mm-img]'

这种方法更加灵活，能适应类名的小范围变动，同时比复杂的层级选择器更稳定。

3. 正确获取图片src属性

在Puppeteer中，当选择器成功命中图片元素后，获取其src属性也需要注意方法。直接使用el.src在某些情况下可能无法返回预期的结果，尤其是在处理动态加载或懒加载的图片时。更可靠的方法是使用el.getAttribute('src')。

DreamStudio

SD兄弟产品！AI 图像生成器

下载

el.src： 这是DOM元素的JavaScript属性，它返回的是浏览器解析后的绝对URL。如果图片在HTML中是相对路径，el.src会将其解析为完整的URL。但在某些情况下，尤其是在元素未完全渲染或图片加载失败时，它可能返回空字符串或不正确的值。
el.getAttribute('src')： 这会直接从HTML标签中读取src属性的原始字符串值，无论是相对路径还是绝对路径，它都返回HTML中定义的字面量。这通常是更可靠的获取方式。

示例：从el.src到el.getAttribute('src')的修改

// 原始代码 (可能无法正常工作)
// const imageurl = await page.$eval('img[alt="Imgflip Logo"]', el => el.src);

// 优化后的代码 (推荐)
const imageurl = await page2.$eval('img[class^=mm-img]', el => el.getAttribute('src'));

4. 结合最佳实践的完整抓取示例

以下是一个结合了优化选择器、正确属性获取以及Puppeteer最佳实践的完整代码示例。它演示了如何遍历一个列表页，进入每个详情页，并抓取目标图片（如模版图片）的src。

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch({
        headless: true, // 生产环境推荐无头模式
        defaultViewport: null, // 允许页面根据内容调整视口
    });

    const page = await browser.newPage();
    // 导航到列表页，等待网络空闲，设置超时时间
    await page.goto('https://imgflip.com/memetemplates', { waitUntil: "networkidle2", timeout: 30000 });
    // 等待关键选择器出现，确保页面加载稳定
    await page.waitForSelector('.mt-box');

    // 获取所有模版盒子
    const boxes = await page.$$('.mt-box');

    for (let box of boxes) {
        let page2 = null; // 在循环内部声明，确保每次迭代都是新的页面实例
        try {
            // 从当前box元素中获取标题和链接
            const title = await box.$eval('h3 > a', el => el.textContent);
            const link = await box.$eval('a.mt-caption', el => el.getAttribute('href'));

            page2 = await browser.newPage(); // 为每个详情页创建新页面
            // 导航到详情页，等待网络空闲，设置超时时间
            await page2.goto(`https://imgflip.com${link}`, { waitUntil: "networkidle2", timeout: 30000 });
            // 等待详情页的关键元素加载
            await page2.waitForSelector('body');

            // 使用优化后的选择器和getAttribute获取图片src
            const imageurl = await page2.$eval('img[class^=mm-img]', el => el.getAttribute('src'));

            console.log(`标题: ${title}`);
            console.log(`图片URL: ${imageurl}`);

        } catch (error) {
            console.error(`处理过程中发生错误: ${error.message}`);
        } finally {
            // 确保每个创建的详情页都被关闭，释放资源
            if (page2) {
                await page2.close();
            }
        }
    }

    await browser.close(); // 关闭浏览器实例
})();

代码解释与注意事项：

headless: true: 在生产环境中，通常不需要显示浏览器界面，设置为true可以提高性能。
defaultViewport: null: 避免固定视口大小，让页面内容自适应。
waitUntil: "networkidle2": 等待网络活动降至2个或更少连接时才认为页面加载完成，比"load"更可靠。
timeout: 设置导航和等待操作的超时时间，防止脚本无限等待。
page.waitForSelector(): 在执行元素选择操作之前，等待关键元素出现在DOM中，可以有效避免因元素未加载而导致的null错误。
box.$eval(): 在已获取的父元素（box）内部执行选择器，缩小查找范围，提高效率和准确性。
资源管理 (page2.close() 和 browser.close()): 每次循环结束后关闭不再需要的页面，并在所有操作完成后关闭浏览器，防止内存泄漏和资源耗尽。
错误处理 (try...catch...finally): 良好的错误处理机制可以使脚本更健壮，即使某个页面抓取失败，也不会中断整个流程。

5. 高级应用：处理更复杂的页面结构和动态内容

在某些情况下，图片可能被嵌套在不同的标签中，或者使用data-src等自定义属性进行懒加载。以下示例展示了如何处理这类复杂情况，并抓取与主模版相关的其他模版图片。

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch({
        headless: true,
        defaultViewport: null,
    });

    const page = await browser.newPage();
    await page.goto('https://imgflip.com/memetemplates', { waitUntil: "networkidle2", timeout: 30000 });
    await page.waitForSelector('.mt-box');

    const boxes = await page.$$('.mt-box');
    let allMemesData = [];

    for (let box of boxes) {
        let page2 = null;
        try {
            const data = await box.$eval('.mt-title > a', el => {
                return { link: el.getAttribute('href'), text: el.textContent };
            });

            page2 = await browser.newPage();
            await page2.goto(`https://imgflip.com${data.link}`, { waitUntil: "networkidle2", timeout: 30000 });
            await page2.waitForSelector('body');

            // 查找详情页中可能存在的相关模版，使用:has()伪类检查是否存在h2标题
            // :has(h2) 确保选择的.base-unit是包含h2标题的有效内容块，而不是空或广告
            const relatedMemes = await page2.$$(".base-unit:has(h2)");
            let relativeMemesList = [];

            for (let m of relatedMemes) {
                const titleInfo = await m.$eval('h2 > a', el => {
                    return { link: el.getAttribute("href"), text: el.textContent };
                });

                let imageUrl = '';
                // 检查图片是在div.base-img中（可能用data-src）还是直接在a标签中（用src）
                const divBaseImg = await m.$('div.base-img');
                if (divBaseImg) {
                    // 如果存在div.base-img，尝试获取其data-src属性
                    imageUrl = await m.$eval('div.base-img', el => el.getAttribute("data-src") || el.getAttribute("src"));
                } else {
                    // 否则，尝试从img标签直接获取src
                    imageUrl = await m.$eval('img', el => el.getAttribute("src"));
                }

                if (imageUrl) { // 确保图片URL不为空
                    relativeMemesList.push({
                        link: titleInfo.link,
                        text: titleInfo.text,
                        image: imageUrl
                    });
                }
            }
            await page2.close();

            allMemesData.push({
                link: data.link,
                text: data.text,
                relative: relativeMemesList
            });

        } catch (error) {
            console.error(`处理过程中发生错误: ${error.message}`);
        } finally {
            if (page2) {
                await page2.close();
            }
        }
    }

    await browser.close();
    console.dir(allMemesData, { depth: null }); // 打印所有抓取到的数据
})();

高级技巧说明：

:has(h2)选择器: 这是一个CSS伪类，用于选择包含特定子元素的父元素。在这里，".base-unit:has(h2)"会选择所有内部包含h2标签的.base-unit元素，过滤掉不相关的或空的base-unit。
条件式图片URL获取: (!! await m.$('div.base-img')) 判断是否存在div.base-img元素。如果存在，则从该div中获取data-src或src；否则，直接从img标签获取src。这提高了代码的适应性，能够处理不同HTML结构下的图片。
console.dir(allMemesData, { depth: null }): console.dir用于以对象的形式打印JavaScript值，{ depth: null }确保打印所有嵌套层级，方便调试和查看复杂数据结构。

6. 总结与最佳实践

通过本文的讲解，我们了解到在Puppeteer中进行网页抓取时，解决图片元素选择器失效和正确获取src属性的关键在于：

选择器优化： 优先使用稳定且具识别性的CSS类选择器或属性前缀匹配，避免过度依赖层级或易变属性。
属性获取： 始终倾向于使用el.getAttribute('src')来获取图片src属性的原始值，以确保准确性。
页面等待： 利用page.goto({ waitUntil: "networkidle2" })和page.waitForSelector()等方法，确保页面内容完全加载和渲染，避免因元素未就绪而导致的错误。
资源管理： 及时关闭不再需要的页面实例 (page.close()) 和浏览器实例 (browser.close())，以防止内存泄漏和提高脚本效率。
错误处理： 使用try...catch...finally块来捕获和处理潜在的错误，增强脚本的健壮性。
高级选择器与逻辑： 针对复杂页面结构，灵活运用CSS高级选择器（如:has()）和条件逻辑，以适应不同的HTML布局和数据获取需求。