0

0

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

霞舞

霞舞

发布时间:2025-11-15 13:13:02

|

194人浏览过

|

来源于php中文网

原创

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

本教程详细阐述如何利用selenium处理动态网页中的下拉菜单,通过识别并迭代点击展开图标,实现所有子菜单的完全展开。随后,指导读者如何从展开后的页面结构中精准提取所需的子分类链接,并提供完整的python代码示例及实用的注意事项,旨在提升网页数据抓取的效率和准确性。

使用Selenium自动化展开动态下拉菜单并高效提取子分类链接

在进行网页数据抓取时,经常会遇到动态加载或隐藏在下拉菜单中的内容。这些内容需要通过用户交互(如点击)才能显示。本教程将以一个具体案例为基础,详细讲解如何使用Python和Selenium库来自动化展开网页中的所有动态下拉菜单,并从中提取所需的子分类链接。

1. 环境准备与WebDriver初始化

首先,确保你已安装Python和Selenium库,并且已配置好Chrome WebDriver。

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep # 引入sleep模块,用于在必要时等待页面加载

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
# 如果WebDriver不在系统PATH中,需要指定路径,例如:
# from selenium.webdriver.chrome.service import Service
# service = Service(executable_path='/path/to/chromedriver')
# driver = webdriver.Chrome(service=service)

driver = webdriver.Chrome()

# 设置隐式等待,在查找元素时,如果元素未立即出现,WebDriver会等待指定时间
driver.implicitly_wait(5) # 增加隐式等待时间,以适应更复杂的加载情况

# 导航到目标网页
driver.get(URL)

# 初始化ActionChains,虽然在此特定解决方案中未直接使用,但在处理复杂交互时非常有用
action = webdriver.ActionChains(driver)

说明:

  • implicitly_wait(5):设置了一个全局的隐式等待时间。这意味着当Selenium尝试查找一个元素但未能立即找到时,它会等待最多5秒钟,直到元素出现。这对于处理页面加载延迟非常有用。
  • ActionChains:用于执行一系列复杂的低级交互,如鼠标悬停、拖放等。在本案例中,我们主要通过直接点击元素来展开下拉菜单,所以其作用不大,但保留作为通用实践。

2. 识别并展开所有动态下拉菜单

目标网页的下拉菜单通过点击一个“加号”图标(ion-plus-round)来展开。这些图标在展开后会消失或变为“减号”图标。为了确保所有下拉菜单都被展开,我们需要一个迭代的策略。

Sesame AI
Sesame AI

一款开创性的语音AI伴侣,具备先进的自然对话能力和独特个性。

下载
# 查找所有表示下拉菜单展开的“加号”图标
# 这些图标具有特定的CSS类:'icon expand-icon ion-plus-round'
# 使用CSS选择器定位这些元素
pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有“加号”图标,直到所有下拉菜单展开
# 这里的策略是:每次循环都重新查找所有“加号”图标,并点击第一个
# 这是因为每次点击后,页面上的“加号”图标列表会动态更新(被点击的会消失或变化)
for i in range(len(pluses)):
    # 每次迭代重新查找当前页面上所有未展开的“加号”图标
    # 这样做可以确保我们总能点击到当前可见的、需要展开的第一个图标
    current_pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何“加号”图标,说明所有菜单都已展开,可以跳出循环
    if not current_pluses:
        break

    # 点击当前找到的第一个“加号”图标
    current_pluses[0].click()

    # 增加短暂的等待,确保页面有时间响应点击事件并更新DOM
    # 对于某些加载较慢的页面,这可以提高稳定性
    sleep(0.5) 

说明:

  • driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]'):使用CSS选择器来定位所有带有特定类名的元素。CSS选择器是一种强大且灵活的元素定位方式。
  • 循环中的current_pluses = driver.find_elements(...):这是解决动态元素列表的关键。每次点击后,页面的DOM结构会发生变化,原始的pluses列表可能不再有效(Stale Element Reference Exception)。通过在每次迭代时重新查找元素,我们确保始终操作的是当前最新的、有效的元素。
  • current_pluses[0].click():每次点击列表中的第一个“加号”图标。由于每次点击都会减少页面上“加号”图标的数量,这个操作会依次展开所有未展开的菜单。
  • sleep(0.5):虽然implicitly_wait处理了元素查找的等待,但有时页面更新DOM需要额外的时间,或者有动画效果,一个短暂的硬性等待可以增加脚本的稳定性。

3. 提取子分类链接

在所有下拉菜单展开后,整个页面的结构已经稳定,我们可以开始提取子分类的href链接。

# 找到包含所有分类和子分类链接的父容器
# 根据页面结构,这个容器是第一个class为'list-group'的元素
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]

# 在这个容器内查找所有的<a>标签(即所有链接)
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤并存储子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    # 判断链接是否包含“subcat”字符串,以识别子分类链接
    if href and 'subcat' in href:
        subcat_links.append(href)

# 打印提取到的子分类链接
print("提取到的子分类链接:")
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()

说明:

  • driver.find_elements(By.CLASS_NAME, 'list-group')[0]:定位到主要的列表组容器。通常情况下,如果页面上有多个相同类名的元素,需要根据实际情况选择正确的索引。
  • item_categories_container.find_elements(By.TAG_NAME, 'a'):在指定的父容器内部查找所有标签。这是一个重要的优化,可以限制查找范围,提高效率和准确性。
  • link_element.get_attribute('href'):获取标签的href属性值,即链接地址。
  • if href and 'subcat' in href::通过检查href属性中是否包含特定字符串(如“subcat”)来筛选出所需的子分类链接。这是一个常见的筛选策略,可以根据实际链接结构进行调整。

4. 完整代码示例

将以上所有步骤整合,得到一个完整的自动化脚本:

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
driver.implicitly_wait(5) # 设置隐式等待时间
driver.get(URL)

# ----------------------------------------------------------------------
# 步骤1: 识别并展开所有动态下拉菜单
# ----------------------------------------------------------------------
# 查找所有表示下拉菜单展开的“加号”图标
pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有“加号”图标
for i in range(len(pluses)):
    current_pluses = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')
    if not current_pluses:
        break
    current_pluses[0].click()
    sleep(0.5) # 短暂等待,确保DOM更新

# ----------------------------------------------------------------------
# 

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1057

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

838

2023.11.06

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

846

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号