0

0

使用Selenium高效抓取层级式网页内容:H2标题与对应P段落的结构化提取

花韻仙語

花韻仙語

发布时间:2025-11-01 10:50:37

|

807人浏览过

|

来源于php中文网

原创

使用Selenium高效抓取层级式网页内容:H2标题与对应P段落的结构化提取

本教程详细介绍了如何利用selenium和xpath表达式,从复杂html结构中高效提取h2标题及其后续所有p标签内容。通过构建一个字典,将h2标题作为键,其关联p标签文本作为值进行聚合,最终将数据转化为结构化的列表字典形式,实现网页内容的精准抓取与整理,适用于需要处理标题-内容对的场景。

在网页抓取任务中,经常会遇到需要提取具有层级关系的内容,例如文章的标题(通常是<h2>或<h3>)及其下方的所有段落(<p>)。直接按顺序抓取所有<h2>和所有<p>标签,然后尝试匹配它们,可能会因为HTML结构复杂性而变得困难。本教程将展示如何利用Selenium的强大定位能力结合XPath的层级选择器,高效且准确地实现这一目标。

准备工作:设置Selenium环境

首先,确保您的Python环境中已安装Selenium库和对应的WebDriver。这里我们使用webdriver_manager来自动管理Chrome浏览器驱动。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 初始化WebDriver
# driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 对于新的Selenium版本,可以直接这样初始化
driver = webdriver.Chrome(ChromeDriverManager().install())

# 示例HTML内容,用于演示
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
'''

# 加载HTML内容到浏览器
driver.get("data:text/html;charset=utf-8," + html_content)

核心策略:利用字典和XPath关联H2与P标签

我们的目标是将每个<h2>标题与其后紧跟的所有<p>标签内容关联起来。一种有效的方法是先识别所有的<h2>标签,并以此为基础构建一个数据结构,然后遍历所有的<p>标签,通过XPath找到它们所属的<h2>,并将内容追加到对应的数据结构中。

  1. 初始化数据结构: 我们使用一个字典来存储抓取到的数据,其中<h2>的文本内容作为键,初始值为空字符串,用于后续累加<p>标签的文本。

    # 查找所有h2标签,并以其文本初始化字典
    # 注意:如果h2内部有span等其他标签,.text会获取所有可见文本
    data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))
    # 此时 data 示例: {'Title1': '', 'Title2': '', 'Title3': ''}
  2. 遍历P标签并关联H2: 接下来,遍历页面上所有的<p>标签。对于每一个<p>标签,我们需要确定它属于哪个<h2>标题。XPath的preceding-sibling::h2[1]表达式能够精确地找到当前元素(<p>)之前最近的一个<h2>同级元素。

    # 遍历所有p标签,并将其内容追加到对应的h2键下
    for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
        # 使用XPath找到当前p标签前面最近的h2同级元素
        # preceding-sibling::h2[1] 表示获取所有h2同级元素中,位于当前元素之前且最接近的那个
        try:
            associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
            # 将p标签的文本内容追加到字典中对应的h2键下
            data[associated_h2_text] += ' ' + p_element.text
        except Exception as e:
            # 处理没有前置h2的情况,或日志记录
            print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Error: {e}")
    
    # 此时 data 示例:
    # {'Title1': ' text I want text I want',
    #  'Title2': ' text I want text I want text I want',
    #  'Title3': ' text I want text I want'}

    这里我们添加了try-except块,以应对某些p标签可能没有前置h2的情况,提高代码的健壮性。

结构化输出:列表字典形式

虽然上述data字典已经包含了所需信息,但在实际应用中,将数据整理成更结构化的列表字典(List of Dictionaries)形式通常更便于后续处理和存储。

Spirit Me
Spirit Me

SpiritMe允许用户使用数字化身制作视频,这些化身可以模拟用户的声音和情感

下载
# 将字典转换为列表字典的格式,更便于数据处理
structured_output = [{'title': title, 'content': content.strip()} for title, content in data.items()]

# 打印最终结果
print(structured_output)

完整示例代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 1. 初始化WebDriver
driver = webdriver.Chrome(ChromeDriverManager().install())

# 2. 示例HTML内容
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>Standalone paragraph without preceding h2</p>
'''

# 3. 加载HTML内容
driver.get("data:text/html;charset=utf-8," + html_content)

# 4. 初始化数据字典
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))

# 5. 遍历p标签并关联H2
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
    try:
        associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
        data[associated_h2_text] += ' ' + p_element.text
    except Exception:
        # 如果p标签没有前置h2,则跳过或按需处理
        print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Skipping.")
        pass # 或者可以将其归类到'未分类'等键下

# 6. 转换为结构化输出
structured_output = [{'title': title, 'content': content.strip()} for title, content in data.items()]

# 7. 打印结果
print(structured_output)

# 8. 关闭浏览器
driver.quit()

预期输出:

[{'title': 'Title1', 'content': 'text I want text I want'},
 {'title': 'Title2', 'content': 'text I want text I want text I want'},
 {'title': 'Title3', 'content': 'text I want text I want'}]

请注意,输出中的Standalone paragraph without preceding h2由于没有前置h2,在处理时会被跳过,不会出现在最终的structured_output中。如果需要处理这类情况,可以修改except块的逻辑。

注意事项与总结

  • XPath的精确性: preceding-sibling::h2[1] 是本方案的关键。它确保了每个<p>标签只与它最近的、位于其之前的<h2>标签关联,避免了跨标题内容的混淆。
  • CSS选择器与XPath: 对于简单的元素定位,CSS选择器通常更简洁。但对于复杂的层级关系或条件判断,XPath提供了更强大的表达能力。
  • 错误处理: 在实际网页抓取中,HTML结构可能不总是完美的。添加try-except块来处理find_element可能找不到元素的情况,可以提高代码的健壮性。
  • 文本清理: 在将p.text添加到内容时,我们使用了content.strip()来移除开头或结尾可能多余的空格,确保内容的整洁。
  • 数据结构选择: 字典是聚合数据的良好中间结构,而列表字典则提供了更标准化的输出格式,便于后续的数据分析、存储(如JSON、CSV)或API响应。

通过上述方法,您可以高效地从具有清晰标题-内容层级关系的网页中提取数据,并将其整理成易于处理的结构化格式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

83

2025.09.10

chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1078

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

848

2023.11.06

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 1.0万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 43.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号