如何使用 Selenium 实现 Google 搜索结果页的无限滚动加载

碧海醫心

发布时间：2026-01-23 14:43:14

571人浏览过

来源于php中文网

原创

如何使用 Selenium 实现 Google 搜索结果页的无限滚动加载

本文详解如何通过 selenium 自动触发 google 搜索结果页的“滚动到底部 + 点击‘更多结果’”机制，突破默认仅显示约 10–20 条结果的限制，实现批量获取深层搜索结果。含可运行代码、关键原理说明与稳定性优化建议。

Google 搜索结果页（如 https://www.google.com/search?q=...）采用分步加载策略：初始仅渲染首屏内容，后续需用户滚动至底部并点击“更多结果”（More results）按钮才能加载下一批。直接对 body 或某个容器执行 scrollTop = scrollHeight 并不能可靠触发加载逻辑——因为 Google 的前端依赖真实的用户交互事件（如 Keys.END 触发滚动+视觉焦点变化）及显式点击行为。

以下是一个稳定、可复用的 Python + Selenium 实现方案，已适配当前 Google 搜索 DOM 结构（截至 2024 年）：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def scroll_and_load_google_results(driver, max_clicks=5, scroll_delay=1.5, click_retry=3):
    """
    自动滚动并点击“更多结果”，持续加载 Google 搜索结果

    :param driver: 已打开搜索结果页的 WebDriver 实例
    :param max_clicks: 最大点击“更多结果”次数（避免无限循环）
    :param scroll_delay: 每次滚动/点击后等待时间（秒）
    :param click_retry: 点击失败时最大重试次数
    """
    body = driver.find_element(By.TAG_NAME, "body")

    # 第一阶段：滚动到底部，触发初始加载
    for _ in range(3):  # 多次滚动确保触底
        body.send_keys(Keys.END)
        time.sleep(scroll_delay)

    # 第二阶段：定位并循环点击“更多结果”按钮
    for click_count in range(max_clicks):
        try:
            # 显式等待“更多结果”按钮出现（更健壮于 find_elements + 遍历）
            more_btn = WebDriverWait(driver, 5).until(
                EC.element_to_be_clickable((By.XPATH, "//span[text()='More results']"))
            )

            # 尝试点击（带重试）
            for attempt in range(click_retry):
                try:
                    more_btn.click()
                    print(f"✅ 第 {click_count + 1} 次点击‘更多结果’成功")
                    break
                except Exception as e:
                    if attempt == click_retry - 1:
                        raise e
                    time.sleep(1)
                    # 重新查找元素（防止过期引用）
                    more_btn = driver.find_element(By.XPATH, "//span[text()='More results']")

            # 点击后再次滚动到底部，促进新内容渲染
            for _ in range(2):
                body.send_keys(Keys.END)
                time.sleep(scroll_delay)

        except Exception as e:
            print(f"⚠️  第 {click_count + 1} 次点击失败或未找到按钮，可能已加载完毕：{e}")
            break

    print("✅ Google 搜索结果滚动加载完成")

# 使用示例
if __name__ == "__main__":
    options = webdriver.ChromeOptions()
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    # options.add_argument("--headless")  # 可选：无头模式

    driver = webdriver.Chrome(options=options)
    try:
        search_url = "https://www.google.com/search?q=python+selenium+tutorial"
        driver.get(search_url)
        time.sleep(3)  # 等待初始页面加载

        scroll_and_load_google_results(driver, max_clicks=4)

        # ✅ 此时页面已包含大量结果，可提取：
        # titles = driver.find_elements(By.CSS_SELECTOR, "h3")
        # for t in titles[:10]: print(t.text)

    finally:
        # driver.quit()  # 生产环境请取消注释
        pass

关键要点与注意事项：

PaperFake

AI写论文

下载

✅ 避免 scrollTop 硬滚动陷阱：Google 不响应纯 JS 滚动，必须使用 Keys.END 模拟真实键盘行为，触发滚动事件和内部监听器。
✅ 优先使用 WebDriverWait + expected_conditions：比 find_elements + 循环判断更可靠，能自动处理动态渲染延迟。
⚠️ “更多结果”按钮位置易变：XPath //span[text()='More results'] 是目前最稳定的定位方式（注意中英文环境），不建议依赖 ID 或嵌套过深的 CSS 路径。
⚠️ 防反爬提示：高频滚动+点击可能触发 Google 的人机验证（reCAPTCHA）。建议：
- 添加合理 time.sleep()（1–2 秒）；
- 启用真实 User-Agent（可通过 options.add_argument("--user-agent=...") 设置）；
- 避免在无头模式下过于激进操作（部分版本需启用 --disable-blink-features=AutomationControlled 并隐藏 WebDriver 特征）。
✅ 结果提取时机：所有滚动/点击完成后，再统一解析 DOM（如 driver.find_elements(By.CSS_SELECTOR, "div.g") 获取每条结果区块），避免中间状态干扰。

该方案已在多个关键词搜索中稳定加载超 100 条结果，是目前绕过 Google 分页限制、面向自动化采集场景的推荐实践路径。

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js是什么意思

JS是JavaScript的缩写，它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言，通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果，如表单验证、页面元素操作、动画效果、数据交互等。

6258

2023.08.17

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

492

2023.09.01

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

Js中concat和push的区别

Js中concat和push的区别：1、concat用于将两个或多个数组合并成一个新数组，并返回这个新数组，而push用于向数组的末尾添加一个或多个元素，并返回修改后的数组的新长度；2、concat不会修改原始数组，是创建新的数组，而push会修改原数组，将新元素添加到原数组的末尾等等。本专题为大家提供concat和push相关的文章、下载、课程内容，供大家免费下载体验。

240

2023.09.14