使用Selenium高效抓取层级式网页内容：H2标题与对应P段落的结构化提取

花韻仙語

发布时间：2025-11-01 10:50:37

807人浏览过

来源于php中文网

原创

使用Selenium高效抓取层级式网页内容：H2标题与对应P段落的结构化提取

本教程详细介绍了如何利用selenium和xpath表达式，从复杂html结构中高效提取h2标题及其后续所有p标签内容。通过构建一个字典，将h2标题作为键，其关联p标签文本作为值进行聚合，最终将数据转化为结构化的列表字典形式，实现网页内容的精准抓取与整理，适用于需要处理标题-内容对的场景。

在网页抓取任务中，经常会遇到需要提取具有层级关系的内容，例如文章的标题（通常是<h2>或<h3>）及其下方的所有段落（<p>）。直接按顺序抓取所有<h2>和所有<p>标签，然后尝试匹配它们，可能会因为HTML结构复杂性而变得困难。本教程将展示如何利用Selenium的强大定位能力结合XPath的层级选择器，高效且准确地实现这一目标。

准备工作：设置Selenium环境

首先，确保您的Python环境中已安装Selenium库和对应的WebDriver。这里我们使用webdriver_manager来自动管理Chrome浏览器驱动。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 初始化WebDriver
# driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 对于新的Selenium版本，可以直接这样初始化
driver = webdriver.Chrome(ChromeDriverManager().install())

# 示例HTML内容，用于演示
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
'''

# 加载HTML内容到浏览器
driver.get("data:text/html;charset=utf-8," + html_content)

核心策略：利用字典和XPath关联H2与P标签

我们的目标是将每个<h2>标题与其后紧跟的所有<p>标签内容关联起来。一种有效的方法是先识别所有的<h2>标签，并以此为基础构建一个数据结构，然后遍历所有的<p>标签，通过XPath找到它们所属的<h2>，并将内容追加到对应的数据结构中。

初始化数据结构： 我们使用一个字典来存储抓取到的数据，其中<h2>的文本内容作为键，初始值为空字符串，用于后续累加<p>标签的文本。

# 查找所有h2标签，并以其文本初始化字典
# 注意：如果h2内部有span等其他标签，.text会获取所有可见文本
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))
# 此时 data 示例: {'Title1': '', 'Title2': '', 'Title3': ''}

遍历P标签并关联H2： 接下来，遍历页面上所有的<p>标签。对于每一个<p>标签，我们需要确定它属于哪个<h2>标题。XPath的preceding-sibling::h2[1]表达式能够精确地找到当前元素（<p>）之前最近的一个<h2>同级元素。

# 遍历所有p标签，并将其内容追加到对应的h2键下
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
    # 使用XPath找到当前p标签前面最近的h2同级元素
    # preceding-sibling::h2[1] 表示获取所有h2同级元素中，位于当前元素之前且最接近的那个
    try:
        associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
        # 将p标签的文本内容追加到字典中对应的h2键下
        data[associated_h2_text] += ' ' + p_element.text
    except Exception as e:
        # 处理没有前置h2的情况，或日志记录
        print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Error: {e}")

# 此时 data 示例:
# {'Title1': ' text I want text I want',
#  'Title2': ' text I want text I want text I want',
#  'Title3': ' text I want text I want'}

这里我们添加了try-except块，以应对某些p标签可能没有前置h2的情况，提高代码的健壮性。

结构化输出：列表字典形式

虽然上述data字典已经包含了所需信息，但在实际应用中，将数据整理成更结构化的列表字典（List of Dictionaries）形式通常更便于后续处理和存储。

Spirit Me

SpiritMe允许用户使用数字化身制作视频，这些化身可以模拟用户的声音和情感

下载

# 将字典转换为列表字典的格式，更便于数据处理
structured_output = [{'title': title, 'content': content.strip()} for title, content in data.items()]

# 打印最终结果
print(structured_output)

完整示例代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 1. 初始化WebDriver
driver = webdriver.Chrome(ChromeDriverManager().install())

# 2. 示例HTML内容
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>Standalone paragraph without preceding h2</p>
'''

# 3. 加载HTML内容
driver.get("data:text/html;charset=utf-8," + html_content)

# 4. 初始化数据字典
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))

# 5. 遍历p标签并关联H2
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
    try:
        associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
        data[associated_h2_text] += ' ' + p_element.text
    except Exception:
        # 如果p标签没有前置h2，则跳过或按需处理
        print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Skipping.")
        pass # 或者可以将其归类到'未分类'等键下

# 6. 转换为结构化输出
structured_output = [{'title': title, 'content': content.strip()} for title, content in data.items()]

# 7. 打印结果
print(structured_output)

# 8. 关闭浏览器
driver.quit()

预期输出：

[{'title': 'Title1', 'content': 'text I want text I want'},
 {'title': 'Title2', 'content': 'text I want text I want text I want'},
 {'title': 'Title3', 'content': 'text I want text I want'}]

请注意，输出中的Standalone paragraph without preceding h2由于没有前置h2，在处理时会被跳过，不会出现在最终的structured_output中。如果需要处理这类情况，可以修改except块的逻辑。

注意事项与总结

XPath的精确性： preceding-sibling::h2[1] 是本方案的关键。它确保了每个<p>标签只与它最近的、位于其之前的<h2>标签关联，避免了跨标题内容的混淆。
CSS选择器与XPath： 对于简单的元素定位，CSS选择器通常更简洁。但对于复杂的层级关系或条件判断，XPath提供了更强大的表达能力。
错误处理： 在实际网页抓取中，HTML结构可能不总是完美的。添加try-except块来处理find_element可能找不到元素的情况，可以提高代码的健壮性。
文本清理： 在将p.text添加到内容时，我们使用了content.strip()来移除开头或结尾可能多余的空格，确保内容的整洁。
数据结构选择： 字典是聚合数据的良好中间结构，而列表字典则提供了更标准化的输出格式，便于后续的数据分析、存储（如JSON、CSV）或API响应。

通过上述方法，您可以高效地从具有清晰标题-内容层级关系的网页中提取数据，并将其整理成易于处理的结构化格式。

SublimeText插件怎么装HTML_Sublime插件操作【操作】

HTML浏览器支持旧标签怎么处理_HTML页面兼容汇总【详解】

如何为未选中的复选框与单选按钮自定义背景色（纯 CSS 实现）

如何用纯 CSS 自定义未选中复选框与单选按钮的背景色

HTML Number Input 默认起始值设为 0 的解决方案