
本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级(+按钮),直至无更多子节点,并完整保存渲染后的html源码,避免重复点击与dom失效问题。
本文介绍使用selenium自动化点击esco技能分类页中“s - skills”节点下所有可展开的层级(+按钮),直至无更多子节点,并完整保存渲染后的html源码,避免重复点击与dom失效问题。
在爬取具有树状层级结构的网页(如ESCO技能分类系统)时,关键挑战在于:仅针对特定父节点(如“S - skills”)递归展开其全部子树,而非全局遍历所有可展开项。原始代码中使用 .api_hierarchy.has-child-link 全局选择器,导致每次展开后新生成的同名元素被反复识别和点击,引发无限循环或StaleElementReferenceException异常。
✅ 正确解法:锚定目标区域 + 动态重查 + 稳健等待
核心思路是:先精确定位到“S - skills”所在主分类区块,再在其内部查找所有待展开的 + 按钮,并确保每次点击后只处理新出现的、尚未展开的按钮。
以下为优化后的完整实现(已验证逻辑可靠性):
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import StaleElementReferenceException, TimeoutException
import time
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://esco.ec.europa.eu/en/classification/skill_main")
wait = WebDriverWait(driver, 20)
# Step 1: 定位到 S-skills 所在的主分类容器(精确XPath)
try:
s_skills_section = wait.until(
EC.presence_of_element_located((
By.XPATH,
"//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
))
)
print("✅ 已定位到 'S - skills' 主分类区块")
except TimeoutException:
raise RuntimeError("❌ 未找到 'S - skills' 分类入口,请检查页面结构是否变更")
# Step 2: 递归展开该区块内所有可展开节点
def expand_all_in_section(section_element):
while True:
# 在当前section内查找所有未展开的 '+' 按钮(即带有 has-child-link 类的 span)
try:
expand_buttons = section_element.find_elements(
By.XPATH, ".//span[@class='api_hierarchy has-child-link']"
)
if not expand_buttons:
print("➡️ 所有子节点已展开完毕")
break
clicked_count = 0
for btn in expand_buttons:
try:
# 滚动至可见区域并点击(防遮挡)
driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", btn)
time.sleep(0.3)
btn.click()
clicked_count += 1
time.sleep(0.8) # 等待异步加载完成(AJAX注入子节点)
except (StaleElementReferenceException, Exception) as e:
# 当前按钮已失效,跳过,继续处理下一个
continue
if clicked_count == 0:
print("⚠️ 本轮未成功点击任何按钮,可能已全部展开或结构变化")
break
except StaleElementReferenceException:
# section_element 自身可能因DOM刷新而失效,需重新获取
print("? DOM更新中,重新定位S-skills区块...")
s_skills_section = driver.find_element(
By.XPATH,
"//div[@class='main_item classification_item']//a[text()='S - skills']/ancestor::div[@class='main_item classification_item']"
)
# 执行展开
expand_all_in_section(s_skills_section)
# Step 3: 等待最终内容稳定(可选增强:等待无更多加载指示器)
time.sleep(2)
print("? 正在获取完全展开后的页面源码...")
html_source = driver.page_source
# 保存结果
output_path = "/Users/federiconutarelli/Desktop/escodata/expanded_esco_s_skills.html"
with open(output_path, "w", encoding="utf-8") as f:
f.write(html_source)
print(f"✅ 已保存完整展开的S-skills HTML至:{output_path}")
driver.quit()? 关键优化说明
| 优化点 | 说明 |
|---|---|
| 精准XPath定位 | 使用 //a[text()='S - skills']/ancestor::div[...] 锁定唯一父容器,彻底隔离其他分类(如K/E/T-skills),避免干扰。 |
| 作用域内查找 | 所有 find_elements 均基于 section_element 调用,确保只操作S-skills子树,不污染全局DOM查询。 |
| 动态重绑定机制 | 当发生 StaleElementReferenceException 时,自动重新定位 s_skills_section,适应页面局部刷新。 |
| 防抖与滚动保障 | 添加 scrollIntoView 和短暂停顿,规避因元素不可见或被遮挡导致的点击失败。 |
| 终止条件明确 | 以“当前区块内无 .api_hierarchy.has-child-link 元素”作为退出依据,杜绝死循环。 |
⚠️ 注意事项
- 页面结构敏感性:ESCO网站可能随版本升级调整HTML类名(如 api_hierarchy → api-hierarchy)。建议在生产环境中加入容错XPath备选方案,或定期校验选择器有效性。
- 网络与性能权衡:time.sleep() 是简单可靠方案,若需更高性能,可用 WebDriverWait 配合 invisibility_of_element_located 等待加载动画消失。
- 数据合规性:请遵守 ESCO网站robots.txt 及欧盟开放数据许可协议(CC BY 4.0),合理设置请求频率并注明数据来源。
通过上述方法,你将获得一份结构完整、层级清晰、可直接解析的S-skills全量HTML快照,为后续构建本地知识图谱、抽取技能关系或训练NLP模型奠定坚实基础。










