0

0

使用Selenium高效抓取层级结构数据:关联H2标题与P标签内容

DDD

DDD

发布时间:2025-11-02 11:47:44

|

684人浏览过

|

来源于php中文网

原创

使用Selenium高效抓取层级结构数据:关联H2标题与P标签内容

本文详细介绍了如何利用selenium和xpath技术,从具有层级结构的html文档中高效抓取数据。核心方法是关联每个`p`标签与其最近的`h2`标题,并将所有相关内容聚合,最终输出为结构化的python字典或列表,从而实现对网页内容的精准提取与组织。

在进行网页数据抓取时,经常会遇到内容按照标题进行分段的情况,例如一个h2标签后跟随多个p标签作为其内容,然后是下一个h2标签及其内容。直接抓取所有h2和p标签很容易,但如何将它们正确地关联起来,形成有逻辑结构的数据,是Web scraping中的一个常见挑战。本文将详细讲解如何使用Selenium结合XPath定位技术,有效地解决这一问题,将散乱的HTML元素转化为结构化的数据。

理解数据结构与抓取目标

假设我们有以下HTML结构:

Title1

text I want

text I want

Title2

text I want

text I want

text I want

Title3

text I want

text I want

我们的目标是提取每个h2标签的文本作为标题,并将其后直到下一个h2标签出现前的所有p标签内容聚合起来,作为该标题的详细内容。最终希望得到类似 [{'title': 'Title1', 'content': 'text I want text I want'}, ...] 的结构化数据。

核心策略:利用XPath的preceding-sibling定位

要实现标题与内容的关联,关键在于找到每个p标签对应的上级h2标题。XPath的preceding-sibling::h2[1]表达式是解决此问题的理想工具。它表示“选择当前节点之前的所有同级h2元素中的第一个”,即最近的一个h2同级元素。

Lessie AI
Lessie AI

一款定位为「People Search AI Agent」的AI搜索智能体

下载

结合Python的字典数据结构,我们可以先遍历所有h2标签,初始化一个字典,以h2的文本作为键,空字符串作为值。然后,遍历所有p标签,对于每个p标签,找到其最近的h2同级元素,并将p标签的文本追加到该h2对应的字典值中。

详细实现步骤

  1. 初始化Selenium WebDriver:设置并启动浏览器驱动。
  2. 加载HTML内容:将目标HTML加载到浏览器中。
  3. 初始化数据字典
    • 使用driver.find_elements(By.CSS_SELECTOR, 'h2')找到所有h2元素。
    • 创建一个字典,其中键是每个h2元素的文本内容,初始值为空字符串。
  4. 遍历并聚合p标签内容
    • 使用driver.find_elements(By.CSS_SELECTOR, 'p')找到所有p元素。
    • 遍历每个p元素:
      • 使用p.find_element(By.XPATH, './preceding-sibling::h2[1]')找到该p标签最近的h2同级元素。
      • 提取该h2元素的文本作为键。
      • 将当前p标签的文本追加到字典中对应键的值上。
  5. 构建结构化输出:将字典转换为更易于处理的列表,例如列表中的字典。

示例代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time

# 1. 初始化Selenium WebDriver
# 推荐使用webdriver_manager自动管理驱动
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

# 2. 加载HTML内容
# 这里使用data URI加载一个字符串HTML,实际应用中替换为driver.get("your_url_here")
html_content = '''

Title1

text I want 1.1

text I want 1.2

Title2

text I want 2.1

text I want 2.2

text I want 2.3

Title3

text I want 3.1

text I want 3.2

''' driver.get("data:text/html;charset=utf-8," + html_content) time.sleep(1) # 给浏览器一些时间加载内容 # 3. 初始化数据字典 # 遍历所有h2元素,以其文本为键,空字符串为值初始化字典 # 注意:h2.text 会自动处理内部的span标签,提取出正确的文本 data_mapping = dict((h2_element.text, '') for h2_element in driver.find_elements(By.CSS_SELECTOR, 'h2')) # 4. 遍历并聚合p标签内容 # 遍历所有p元素 for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'): # 找到当前p元素最近的前一个h2同级元素 # XPath './preceding-sibling::h2[1]' 表示当前节点(.)之前(preceding-sibling)的h2元素中的第一个([1]) try: preceding_h2 = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]') h2_text = preceding_h2.text # 将p标签的文本追加到对应h2键的值中,用空格分隔 data_mapping[h2_text] += ' ' + p_element.text except Exception as e: print(f"Error processing p tag: {p_element.text}. No preceding h2 found or other error: {e}") # 可以选择跳过或记录此类p标签 # 5. 构建结构化输出 # 将字典转换为列表,每个元素是一个包含'title'和'content'键的字典 structured_output = [{'title': title, 'content': content.strip()} for title, content in data_mapping.items()] # 打印结果 print(structured_output) # 关闭浏览器 driver.quit()

输出结果

运行上述代码,将得到以下结构化输出:

[{'title': 'Title1', 'content': 'text I want 1.1 text I want 1.2'},
 {'title': 'Title2', 'content': 'text I want 2.1 text I want 2.2 text I want 2.3'},
 {'title': 'Title3', 'content': 'text I want 3.1 text I want 3.2'}]

注意事项与最佳实践

  • XPath的准确性:preceding-sibling::h2[1]是关键。如果HTML结构复杂,例如p标签和h2之间有其他不相关的同级元素,此XPath仍能正确找到最近的h2。如果需要查找更远的祖先元素,可能需要使用ancestor::或其他更复杂的XPath表达式。
  • 错误处理:在实际网页抓取中,HTML结构可能不完全规范。例如,如果某个p标签前面没有h2标签,p_element.find_element()会抛出NoSuchElementException。在示例代码中,我们加入了try-except块来处理这种情况,增强了代码的健壮性。
  • 文本清理:p.text提取的文本可能包含多余的空格或换行符。在将内容追加到字典值之前或之后,可以使用strip()、replace()等方法进行清理。示例代码在最终输出时对content进行了strip()处理。
  • 性能考量:对于非常大的HTML文档,多次调用find_element可能会有性能开销。然而,对于大多数常见场景,这种方法是高效且易于理解的。
  • 数据结构选择:将最终数据组织成列表中的字典 ([{'title': x, 'content': y}, ...]) 是推荐的做法,因为它提供了清晰的键值对,方便后续的数据处理和分析。

总结

通过结合Selenium的元素查找能力和XPath强大的轴定位功能,我们可以高效地从复杂的HTML结构中提取并组织数据。preceding-sibling::h2[1]技巧在处理标题与内容关联的场景中尤为实用,它允许我们以编程方式模拟人类阅读时的上下文理解,从而将非结构化的网页内容转化为清晰、可用的结构化数据。掌握这种方法,将大大提升Web scraping的灵活性和效率。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

755

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

636

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

759

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

CSS教程
CSS教程

共754课时 | 19.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号