0

0

从HTML中提取并分离合并P标签与Table标签的教程

DDD

DDD

发布时间:2025-11-06 08:22:16

|

321人浏览过

|

来源于php中文网

原创

从HTML中提取并分离合并P标签与Table标签的教程

本教程旨在解决从复杂html结构中按序提取并聚合段落(p标签)内容,同时将表格(table标签)作为独立项分离存储的问题。文章将深入分析常见错误,特别是内容缓冲区管理不当导致的p标签聚合失败,并提供一个基于beautifulsoup和html2text的健壮解决方案,确保p标签内容正确拼接,表格独立存储,并输出清晰的json格式数据。

HTML混合内容提取挑战与解决方案

在处理HTML文档时,我们经常需要从包含多种类型元素的复杂结构中提取特定内容,例如将所有连续的段落文本合并为一个逻辑单元,同时将表格等结构化数据作为独立的项进行处理。这种需求在内容抓取、文档转换或数据分析中非常普遍。然而,不正确的迭代和状态管理(如缓冲区)常常导致数据丢失或聚合错误。

常见问题分析:P标签聚合失败

许多开发者在尝试聚合P标签时,会遇到一个典型问题:只有最后一个P标签的内容被捕获,或者P标签内容未能正确连接。这通常是由于在迭代过程中,用于累积P标签内容的变量或字典被不当地重置。

考虑以下初始尝试代码:

from bs4 import BeautifulSoup, NavigableString
import html2text
import json

data3 = """

Paragraph 1 content.

立即学习前端免费学习笔记(深入)”;

Paragraph 2 content.

Table 1 Cell

Paragraph 3 content.

Paragraph 4 content.

Table 2 Cell

Paragraph 5 content.

""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] for tag in soup.descendants: # 错误:content_dict 在每次迭代中都被重新初始化 content_dict = {'Title': "35.23.060 - DR Zone Standards", 'Content': ''} if tag.name == "p": content_dict['Content'] += converter.handle(str(tag)) elif tag.name == "table": if content_dict['Content']: content_items.append(content_dict) content_dict['Content'] = converter.handle(str(tag)) content_items.append(content_dict) print(json.dumps(content_items, indent=4, ensure_ascii=False))

上述代码的问题在于,content_dict 在 for tag in soup.descendants: 循环的每次迭代中都被重新初始化。这意味着当遇到一个P标签时,它会将内容添加到当前(新创建的)content_dict 中。但在下一次迭代处理下一个P标签时,又会创建一个新的 content_dict,导致前一个P标签的内容丢失,无法实现连续P标签的聚合。当遇到table标签时,content_dict['Content']中只可能包含紧邻table前的那个P标签内容(如果存在),而不是之前所有连续的P标签内容。

酷兔AI论文
酷兔AI论文

专业原创高质量、低查重,免费论文大纲,在线AI生成原创论文,AI辅助生成论文的神器!

下载

健壮的解决方案:使用内容缓冲区

为了正确地聚合P标签内容并在遇到表格时将其作为独立项处理,我们需要引入一个“缓冲区”来累积P标签的内容,直到遇到非P标签(如表格)或文档结束。

核心思路如下:

  1. 初始化缓冲区: 在主循环外部创建一个列表或字符串作为P标签内容的缓冲区。
  2. 遍历相关标签: 使用 BeautifulSoup 的 find_all 方法一次性获取所有P标签和Table标签,这能确保我们按文档顺序处理这些关键元素。
  3. 条件处理:
    • 如果遇到P标签,将其内容添加到缓冲区。
    • 如果遇到Table标签:
      • 首先检查缓冲区是否有内容。如果有,说明之前累积了P标签,此时应将缓冲区内容作为一项添加到最终结果列表,然后清空缓冲区。
      • 然后将当前Table标签的内容作为另一项添加到最终结果列表。
  4. 处理剩余内容: 循环结束后,如果缓冲区仍有内容(即文档以P标签结束),则将剩余的P标签内容作为最后一项添加到结果列表。

以下是实现这一逻辑的优化代码:

from bs4 import BeautifulSoup
import html2text
import json

# 示例HTML数据
data3 = """

这是第一段内容。

这是第二段内容,它们应该被合并。

表格1 数据
更多 内容

这是第三段内容,位于表格之后。

这是第四段内容,在外部。

表格2 独立

这是第五段内容,作为文档的最后部分。

""" converter = html2text.HTML2Text() soup = BeautifulSoup(data3, 'html.parser') content_items = [] current_p_buffer = [] # 用于累积P标签内容的缓冲区 # 使用 find_all 获取所有 p 和 table 标签,确保按文档顺序处理 # 这种方法比直接遍历 descendants 更适合这种按序聚合的需求 all_relevant_tags = soup.find_all(['p', 'table']) for tag in all_relevant_tags: if tag.name == "p": # 将P标签内容添加到缓冲区,并去除html2text可能引入的额外空白 current_p_buffer.append(converter.handle(str(tag)).strip()) elif tag.name == "table": # 如果缓冲区有P标签内容,先将其作为一项添加到结果列表 if current_p_buffer: content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题,可根据实际需求动态设置 'Content': "\n\n".join(current_p_buffer) # 使用双换行符连接段落 }) current_p_buffer = [] # 清空缓冲区 # 然后将Table标签内容作为单独一项添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题 'Content': converter.handle(str(tag)).strip() }) # 循环结束后,检查缓冲区是否还有剩余的P标签内容 if current_p_buffer: content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题 'Content': "\n\n".join(current_p_buffer) }) # 打印最终提取的数据 print(json.dumps(content_items, indent=4, ensure_ascii=False))

运行结果示例

[
    {
        "Title": "35.23.060 - DR Zone Standards",
        "Content": "这是第一段内容。\n\n这是第二段内容,它们应该被合并。"
    },
    {
        "Title": "35.23.060 - DR Zone Standards",
        "Content": "| 表格1 | 数据 |\n|---|---|\n| 更多 | 内容 |"
    },
    {
        "Title": "35.23.060 - DR Zone Standards",
        "Content": "这是第三段内容,位于表格之后。\n\n这是第四段内容,在外部。"
    },
    {
        "Title": "35.23.060 - DR Zone Standards",
        "Content": "| 表格2 | 独立 |\n|---|---|"
    },
    {
        "Title": "35.23.060 - DR Zone Standards",
        "Content": "这是第五段内容,作为文档的最后部分。"
    }
]

注意事项与最佳实践

  1. 缓冲区管理: 确保P标签内容缓冲区在正确的时间被清空和重新填充,这是实现正确聚合的关键。
  2. find_all 与 descendants/children: 对于需要按文档顺序处理特定标签并进行聚合的场景,soup.find_all(['tag1', 'tag2']) 是一个非常有效且简洁的方法,因为它会返回所有匹配标签的列表,并保持它们在原始文档中的出现顺序。相比之下,soup.descendants 遍历所有子孙节点,可能包含大量无关标签,而 soup.children 只遍历直接子节点,可能无法捕获深层嵌套的标签。
  3. html2text 的使用: html2text 库能将HTML内容转换为Markdown格式的文本,非常适合提取纯文本内容并保留一定的格式(如表格)。使用 .strip() 可以去除转换后可能产生的多余空白字符。
  4. 内容连接符: 在连接多个P标签内容时,使用 "\n\n" (双换行符) 可以更好地模拟段落之间的视觉分隔,使其在最终输出中更具可读性。
  5. 错误处理与边缘情况:
    • 空标签: 确保 converter.handle() 能正确处理空P标签或空表格。
    • 非预期标签: 如果HTML中存在除P和Table之外的其他需要特殊处理的标签,需要扩展 if/elif 结构。
    • 标题动态化: 示例中的 'Title' 是固定值,在实际应用中,这通常需要从HTML的某个特定位置(如H1标签、元数据)动态提取。

总结

通过采用内容缓冲区和find_all方法,我们可以有效地从复杂的HTML文档中按序提取并聚合P标签内容,同时将Table标签作为独立的结构化数据项进行处理。这种模式不仅解决了P标签聚合的常见问题,也为处理其他类型的混合HTML内容提供了通用的解决方案,极大地提高了数据提取的准确性和灵活性。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

415

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

533

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

310

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

75

2025.09.10

html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

616

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

655

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

5

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

AngularJS教程
AngularJS教程

共24课时 | 2.8万人学习

CSS教程
CSS教程

共754课时 | 21.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号