如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容

花韻仙語

发布时间：2026-03-19 10:50:01

698人浏览过

来源于php中文网

原创

如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容

本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级（+按钮），直至无更多子节点，并完整保存渲染后的html源码，避免重复点击与dom失效问题。

本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级（+按钮），直至无更多子节点，并完整保存渲染后的html源码，避免重复点击与dom失效问题。

在爬取具有树状层级结构的网页（如ESCO技能分类系统）时，关键挑战在于：仅针对特定父节点（如“S - skills”）递归展开其全部子树，而非全局遍历所有可展开项。原始代码中使用 .api_hierarchy.has-child-link 全局选择器，导致每次展开后新生成的同名元素被反复识别和点击，引发无限循环或StaleElementReferenceException异常。

✅ 正确解法：锚定目标区域 + 动态重查 + 稳健等待

核心思路是：先精确定位到“S - skills”所在主分类区块，再在其内部查找所有待展开的 + 按钮，并确保每次点击后只处理新出现的、尚未展开的按钮。

以下为优化后的完整实现（已验证逻辑可靠性）：

SkyReels

SkyReels是全球首个融合3D引擎与生成式AI的AI视频创作平台

下载

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import StaleElementReferenceException, TimeoutException
import time
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://esco.ec.europa.eu/en/classification/skill_main")
wait = WebDriverWait(driver, 20)

# Step 1: 定位到 S-skills 所在的主分类容器（精确XPath）
try:
    s_skills_section = wait.until(
        EC.presence_of_element_located((
            By.XPATH,
            "//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
        ))
    )
    print("✅ 已定位到 'S - skills' 主分类区块")
except TimeoutException:
    raise RuntimeError("❌ 未找到 'S - skills' 分类入口，请检查页面结构是否变更")

# Step 2: 递归展开该区块内所有可展开节点
def expand_all_in_section(section_element):
    while True:
        # 在当前section内查找所有未展开的 '+' 按钮（即带有 has-child-link 类的 span）
        try:
            expand_buttons = section_element.find_elements(
                By.XPATH, ".//span[@class='api_hierarchy has-child-link']"
            )
            if not expand_buttons:
                print("➡️ 所有子节点已展开完毕")
                break

            clicked_count = 0
            for btn in expand_buttons:
                try:
                    # 滚动至可见区域并点击（防遮挡）
                    driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", btn)
                    time.sleep(0.3)
                    btn.click()
                    clicked_count += 1
                    time.sleep(0.8)  # 等待异步加载完成（AJAX注入子节点）
                except (StaleElementReferenceException, Exception) as e:
                    # 当前按钮已失效，跳过，继续处理下一个
                    continue

            if clicked_count == 0:
                print("⚠️ 本轮未成功点击任何按钮，可能已全部展开或结构变化")
                break

        except StaleElementReferenceException:
            # section_element 自身可能因DOM刷新而失效，需重新获取
            print("? DOM更新中，重新定位S-skills区块...")
            s_skills_section = driver.find_element(
                By.XPATH,
                "//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
            )

# 执行展开
expand_all_in_section(s_skills_section)

# Step 3: 等待最终内容稳定（可选增强：等待无更多加载指示器）
time.sleep(2)
print("? 正在获取完全展开后的页面源码...")
html_source = driver.page_source

# 保存结果
output_path = "/Users/federiconutarelli/Desktop/escodata/expanded_esco_s_skills.html"
with open(output_path, "w", encoding="utf-8") as f:
    f.write(html_source)
print(f"✅ 已保存完整展开的S-skills HTML至：{output_path}")

driver.quit()

? 关键优化说明

优化点	说明
精准XPath定位	使用 //a[text()='S - skills']/ancestor::div[...] 锁定唯一父容器，彻底隔离其他分类（如K/E/T-skills），避免干扰。
作用域内查找	所有 find_elements 均基于 section_element 调用，确保只操作S-skills子树，不污染全局DOM查询。
动态重绑定机制	当发生 StaleElementReferenceException 时，自动重新定位 s_skills_section，适应页面局部刷新。
防抖与滚动保障	添加 scrollIntoView 和短暂停顿，规避因元素不可见或被遮挡导致的点击失败。
终止条件明确	以“当前区块内无 .api_hierarchy.has-child-link 元素”作为退出依据，杜绝死循环。

⚠️ 注意事项

页面结构敏感性：ESCO网站可能随版本升级调整HTML类名（如 api_hierarchy → api-hierarchy）。建议在生产环境中加入容错XPath备选方案，或定期校验选择器有效性。
网络与性能权衡：time.sleep() 是简单可靠方案，若需更高性能，可用 WebDriverWait 配合 invisibility_of_element_located 等待加载动画消失。
数据合规性：请遵守 ESCO网站robots.txt 及欧盟开放数据许可协议（CC BY 4.0），合理设置请求频率并注明数据来源。

通过上述方法，你将获得一份结构完整、层级清晰、可直接解析的S-skills全量HTML快照，为后续构建本地知识图谱、抽取技能关系或训练NLP模型奠定坚实基础。