0

0

如何使用 Selenium 正确提取 JavaScript 渲染的搜索结果链接

心靈之曲

心靈之曲

发布时间:2026-01-28 11:47:12

|

176人浏览过

|

来源于php中文网

原创

如何使用 Selenium 正确提取 JavaScript 渲染的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 搜索页的真实结果链接,并提供基于 selenium 的可靠解决方案,支持无头模式自动化抓取动态加载的搜索结果 url。

DTCC 官网(https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e)的搜索结果是通过 JavaScript 动态渲染生成的——页面初始 HTML 中不包含实际的搜索结果链接,而是由前端脚本(如 React 或 AJAX)在浏览器中运行后才插入 DOM。因此,使用 requests 获取的原始 HTML 仅含占位结构(如空的

),BeautifulSoup 自然无法解析出目标链接。

你原代码中的正则匹配 href 含 "http" 的 标签,实际捕获的是页面头部、导航栏、脚本资源等静态链接,而非动态注入的搜索结果项,这是典型“服务端渲染缺失”导致的爬虫失效场景。

✅ 正确做法是:使用浏览器自动化工具执行 JavaScript,等待内容加载完成后再提取。推荐方案如下:

方案一:纯 Selenium 提取(推荐)

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome(不显示界面,适合服务器部署)
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载并至少出现一个链接(更健壮可改用 WebDriverWait)
    time.sleep(5)

    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    result_links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in result_links:
        href = link.get_attribute('href')
        if href and not href.startswith('#') and 'javascript:' not in href:
            print(href)
finally:
    driver.quit()  # 确保关闭浏览器进程

方案二:Selenium + BeautifulSoup 混合(灵活性更高)

若需复用 BeautifulSoup 的解析能力(如提取标题、摘要等),可在 JS 渲染后获取完整 HTML:

Generated Photos
Generated Photos

AI人脸头像生成工具

下载

立即学习Java免费学习笔记(深入)”;

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(a['href'])

⚠️ 注意事项

  • 必须设置合理等待时间(或使用 WebDriverWait 显式等待 .search-results a 出现),避免因加载延迟导致空结果;
  • 生产环境建议添加异常处理(如 NoSuchElementException)、超时控制及 User-Agent 设置;
  • 确保 ChromeDriver 版本与本地 Chrome 浏览器兼容;
  • 遵守 robots.txt(DTCC 的 /robots.txt 允许 /search,但仍建议控制请求频率,避免对服务器造成压力)。

总结:当目标内容由 JavaScript 动态注入时,requests 是无效的“静态快照工具”,而 Selenium 是模拟真实用户行为的“动态执行引擎”。掌握这一区分,是突破现代 SPA(单页应用)网站反爬限制的关键一步。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ajax教程
ajax教程

php中文网为大家带来ajax教程合集,Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

159

2023.06.14

ajax中文乱码解决方法
ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容,供大家免费下载体验。

160

2023.08.31

ajax传递中文乱码怎么办
ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法:1、设置统一的编码方式;2、服务器端编码;3、客户端解码;4、设置HTTP响应头;5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

117

2023.11.15

ajax网站有哪些
ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

234

2024.09.24

chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

830

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

743

2023.11.06

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

469

2024.01.03

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

142

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

React核心原理新老生命周期精讲
React核心原理新老生命周期精讲

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号