0

0

如何使用 Selenium 提取动态加载的搜索结果链接

碧海醫心

碧海醫心

发布时间:2026-01-28 12:31:08

|

976人浏览过

|

来源于php中文网

原创

如何使用 Selenium 提取动态加载的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 网站搜索结果链接,并提供基于 selenium 的可靠解决方案,支持无头模式、精准定位及后续 beautifulsoup 协同解析。

DTCC 官网(https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e)的搜索结果是通过 JavaScript 动态渲染的——页面初始 HTML 中并不包含实际的搜索结果 标签,而是由前端脚本在浏览器异步加载并插入 DOM。因此,仅用 requests.get() 获取原始 HTML 后交由 BeautifulSoup 解析,必然无法捕获这些链接,这也是你代码中 soup.find_all(attrs={'href': re.compile("http")}) 一无所获的根本原因。

要正确提取这类动态内容,必须借助浏览器自动化工具模拟真实访问行为。Selenium 是最常用且稳定的选择。以下是推荐的实践方案:

✅ 推荐方案:Selenium 直接提取(简洁高效)

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome(不显示浏览器窗口)
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载完成(更健壮的做法是使用 WebDriverWait)
    time.sleep(5)

    # 定位搜索结果区域,再查找其中所有  标签
    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in links:
        href = link.get_attribute('href')
        if href and not href.startswith('#'):  # 过滤空链接和锚点
            print(href)
finally:
    driver.quit()  # 确保关闭浏览器进程
⚠️ 注意事项:time.sleep(5) 是简易等待方式,生产环境建议改用 WebDriverWait 显式等待元素出现(例如 presence_of_element_located((By.CLASS_NAME, 'search-results'))),避免因网络波动导致提取失败。若遇到 NoSuchElementException,请检查 .search-results 类名是否变更(可通过浏览器开发者工具确认当前 DOM 结构)。ChromeDriver 版本需与本地 Chrome 浏览器兼容;若报错 WebDriverException,请更新驱动或指定 executable_path。

? 进阶方案:Selenium + BeautifulSoup 协同(灵活性更强)

如果你习惯用 BeautifulSoup 进行复杂解析(如提取标题、摘要、发布时间等),可先用 Selenium 获取渲染后的完整 HTML,再交由 BeautifulSoup 处理:

DALL·E 2
DALL·E 2

OpenAI基于GPT-3模型开发的AI绘图生成工具,可以根据自然语言的描述创建逼真的图像和艺术。

下载
from bs4 import BeautifulSoup

# ...(同上启动 driver 并访问页面)...

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(a['href'])

该方式兼顾了 Selenium 的动态执行能力与 BeautifulSoup 的语法简洁性,适合结构较复杂的页面解析任务。

总之,面对 JS 渲染的搜索结果页,放弃纯 requests 方案,转向 Selenium 是必要且高效的路径。只要合理配置等待机制与选择器,即可稳定、准确地抓取目标链接。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

833

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

744

2023.11.06

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

514

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

244

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

5306

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

481

2023.09.01

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.3万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号