如何使用 Selenium 提取动态加载的搜索结果链接

碧海醫心

发布时间：2026-01-28 12:31:08

1016人浏览过

来源于php中文网

原创

如何使用 Selenium 提取动态加载的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 网站搜索结果链接，并提供基于 selenium 的可靠解决方案，支持无头模式、精准定位及后续 beautifulsoup 协同解析。

DTCC 官网（https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e）的搜索结果是通过 JavaScript 动态渲染的——页面初始 HTML 中并不包含实际的搜索结果 <a> 标签，而是由前端脚本在浏览器中异步加载并插入 DOM。因此，仅用 requests.get() 获取原始 HTML 后交由 BeautifulSoup 解析，必然无法捕获这些链接，这也是你代码中 soup.find_all(attrs={'href': re.compile("http")}) 一无所获的根本原因。

要正确提取这类动态内容，必须借助浏览器自动化工具模拟真实访问行为。Selenium 是最常用且稳定的选择。以下是推荐的实践方案：

✅ 推荐方案：Selenium 直接提取（简洁高效）

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome（不显示浏览器窗口）
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载完成（更健壮的做法是使用 WebDriverWait）
    time.sleep(5)

    # 定位搜索结果区域，再查找其中所有 <a> 标签
    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in links:
        href = link.get_attribute('href')
        if href and not href.startswith('#'):  # 过滤空链接和锚点
            print(href)
finally:
    driver.quit()  # 确保关闭浏览器进程

⚠️ 注意事项：time.sleep(5) 是简易等待方式，生产环境建议改用 WebDriverWait 显式等待元素出现（例如 presence_of_element_located((By.CLASS_NAME, 'search-results'))），避免因网络波动导致提取失败。若遇到 NoSuchElementException，请检查 .search-results 类名是否变更（可通过浏览器开发者工具确认当前 DOM 结构）。ChromeDriver 版本需与本地 Chrome 浏览器兼容；若报错 WebDriverException，请更新驱动或指定 executable_path。

? 进阶方案：Selenium + BeautifulSoup 协同（灵活性更强）

如果你习惯用 BeautifulSoup 进行复杂解析（如提取标题、摘要、发布时间等），可先用 Selenium 获取渲染后的完整 HTML，再交由 BeautifulSoup 处理：

小羊标书

一键生成百页标书，让投标更简单高效

下载

from bs4 import BeautifulSoup

# ...（同上启动 driver 并访问页面）...

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(a['href'])

该方式兼顾了 Selenium 的动态执行能力与 BeautifulSoup 的语法简洁性，适合结构较复杂的页面解析任务。

总之，面对 JS 渲染的搜索结果页，放弃纯 requests 方案，转向 Selenium 是必要且高效的路径。只要合理配置等待机制与选择器，即可稳定、准确地抓取目标链接。

如何为 JavaScript 动态生成的 HTML 内容精准应用 CSS 样式

JavaScript 表单提交中 undefined 错误的根源与修复方案

JavaScript 表单提交中获取输入值失败的常见原因与正确实践

如何用 JavaScript 实现点击按钮切换内容显隐（初始隐藏）

如何通过 CSS 初始化与 JavaScript 交互实现内容的显隐切换

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html5可视化编辑怎么调响应式_html5可视化响应式适配设置【步骤】下一篇：html5怎么实现图片锐化_html5图片锐化处理法【技巧】

作者最新文章

如何在桌面端调试移动设备触摸事件

2026-03-15 14:02

Camel SFTP 文件下载后如何避免重复拉取：正确配置文件处理策略

2026-03-15 14:04

如何在 Hibernate 中安全更新携带 ID 的分离实体

2026-03-15 14:07

如何实现侧边栏展开时主内容区域自适应剩余空间宽度

2026-03-15 14:12

苹果iPhone15怎么关闭APP自动更新

2026-03-15 14:14

PHP 数组按指定元素位置循环重排序教程

2026-03-15 14:20

如何在 Go 中正确构建并返回 JSON 响应

2026-03-15 14:24

如何实现点击模态框外部区域自动关闭功能

2026-03-15 14:29

Balkan FamilyTree JS：当前版本无法展开完整家谱树的官方说明

2026-03-15 14:35

如何让关闭按钮支持键盘操作（空格/回车触发）并符合无障碍标准

2026-03-15 14:50

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1078

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

848

2023.11.06

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js是什么意思

JS是JavaScript的缩写，它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言，通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果，如表单验证、页面元素操作、动画效果、数据交互等。

6309

2023.08.17

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

494

2023.09.01