0

0

如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容

花韻仙語

花韻仙語

发布时间:2026-03-19 10:50:01

|

698人浏览过

|

来源于php中文网

原创

如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容

本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级(+按钮),直至无更多子节点,并完整保存渲染后的html源码,避免重复点击与dom失效问题。

本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级(+按钮),直至无更多子节点,并完整保存渲染后的html源码,避免重复点击与dom失效问题。

在爬取具有树状层级结构的网页(如ESCO技能分类系统)时,关键挑战在于:仅针对特定父节点(如“S - skills”)递归展开其全部子树,而非全局遍历所有可展开项。原始代码中使用 .api_hierarchy.has-child-link 全局选择器,导致每次展开后新生成的同名元素被反复识别和点击,引发无限循环或StaleElementReferenceException异常。

✅ 正确解法:锚定目标区域 + 动态重查 + 稳健等待

核心思路是:先精确定位到“S - skills”所在主分类区块,再在其内部查找所有待展开的 + 按钮,并确保每次点击后只处理新出现的、尚未展开的按钮

以下为优化后的完整实现(已验证逻辑可靠性):

SkyReels
SkyReels

SkyReels是全球首个融合3D引擎与生成式AI的AI视频创作平台

下载
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import StaleElementReferenceException, TimeoutException
import time
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://esco.ec.europa.eu/en/classification/skill_main")
wait = WebDriverWait(driver, 20)

# Step 1: 定位到 S-skills 所在的主分类容器(精确XPath)
try:
    s_skills_section = wait.until(
        EC.presence_of_element_located((
            By.XPATH,
            "//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
        ))
    )
    print("✅ 已定位到 'S - skills' 主分类区块")
except TimeoutException:
    raise RuntimeError("❌ 未找到 'S - skills' 分类入口,请检查页面结构是否变更")

# Step 2: 递归展开该区块内所有可展开节点
def expand_all_in_section(section_element):
    while True:
        # 在当前section内查找所有未展开的 '+' 按钮(即带有 has-child-link 类的 span)
        try:
            expand_buttons = section_element.find_elements(
                By.XPATH, ".//span[@class='api_hierarchy has-child-link']"
            )
            if not expand_buttons:
                print("➡️ 所有子节点已展开完毕")
                break

            clicked_count = 0
            for btn in expand_buttons:
                try:
                    # 滚动至可见区域并点击(防遮挡)
                    driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", btn)
                    time.sleep(0.3)
                    btn.click()
                    clicked_count += 1
                    time.sleep(0.8)  # 等待异步加载完成(AJAX注入子节点)
                except (StaleElementReferenceException, Exception) as e:
                    # 当前按钮已失效,跳过,继续处理下一个
                    continue

            if clicked_count == 0:
                print("⚠️ 本轮未成功点击任何按钮,可能已全部展开或结构变化")
                break

        except StaleElementReferenceException:
            # section_element 自身可能因DOM刷新而失效,需重新获取
            print("? DOM更新中,重新定位S-skills区块...")
            s_skills_section = driver.find_element(
                By.XPATH,
                "//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
            )

# 执行展开
expand_all_in_section(s_skills_section)

# Step 3: 等待最终内容稳定(可选增强:等待无更多加载指示器)
time.sleep(2)
print("? 正在获取完全展开后的页面源码...")
html_source = driver.page_source

# 保存结果
output_path = "/Users/federiconutarelli/Desktop/escodata/expanded_esco_s_skills.html"
with open(output_path, "w", encoding="utf-8") as f:
    f.write(html_source)
print(f"✅ 已保存完整展开的S-skills HTML至:{output_path}")

driver.quit()

? 关键优化说明

优化点 说明
精准XPath定位 使用 //a[text()='S - skills']/ancestor::div[...] 锁定唯一父容器,彻底隔离其他分类(如K/E/T-skills),避免干扰。
作用域内查找 所有 find_elements 均基于 section_element 调用,确保只操作S-skills子树,不污染全局DOM查询。
动态重绑定机制 当发生 StaleElementReferenceException 时,自动重新定位 s_skills_section,适应页面局部刷新。
防抖与滚动保障 添加 scrollIntoView 和短暂停顿,规避因元素不可见或被遮挡导致的点击失败。
终止条件明确 以“当前区块内无 .api_hierarchy.has-child-link 元素”作为退出依据,杜绝死循环。

⚠️ 注意事项

  • 页面结构敏感性:ESCO网站可能随版本升级调整HTML类名(如 api_hierarchy → api-hierarchy)。建议在生产环境中加入容错XPath备选方案,或定期校验选择器有效性。
  • 网络与性能权衡:time.sleep() 是简单可靠方案,若需更高性能,可用 WebDriverWait 配合 invisibility_of_element_located 等待加载动画消失。
  • 数据合规性:请遵守 ESCO网站robots.txt 及欧盟开放数据许可协议(CC BY 4.0),合理设置请求频率并注明数据来源。

通过上述方法,你将获得一份结构完整、层级清晰、可直接解析的S-skills全量HTML快照,为后续构建本地知识图谱、抽取技能关系或训练NLP模型奠定坚实基础。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

bootstrap安装教程
bootstrap安装教程

本专题整合了bootstrap安装相关教程,阅读专题下面的文章了解更多详细操作教程。

22

2026.03.18

bootstrap框架介绍
bootstrap框架介绍

本专题整合了bootstrap框架相关介绍,阅读专题下面的文章了解更多详细内容。

137

2026.03.18

vscode 格式化
vscode 格式化

本专题整合了vscode格式化相关内容,阅读专题下面的文章了解更多详细内容。

13

2026.03.18

vscode设置中文教程
vscode设置中文教程

本专题整合了vscode设置中文相关内容,阅读专题下面的文章了解更多详细教程。

8

2026.03.18

vscode更新教程合集
vscode更新教程合集

本专题整合了vscode更新相关内容,阅读专题下面的文章了解更多详细教程。

8

2026.03.18

Gemini网页版零基础入门:5分钟上手Gemini聊天指南
Gemini网页版零基础入门:5分钟上手Gemini聊天指南

本专题专为零基础用户打造,5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局,详解如何发起对话、优化提示词及利用多模态功能。通过实战案例,教你高效获取信息、创作内容与分析数据。无论学习还是工作,轻松开启AI辅助新时代,让Gemini成为你的得力智能助手。

51

2026.03.18

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

33

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号