0

0

使用Beautiful Soup从非结构化HTML中提取特定文本内容

心靈之曲

心靈之曲

发布时间:2025-10-22 12:56:43

|

812人浏览过

|

来源于php中文网

原创

使用Beautiful Soup从非结构化HTML中提取特定文本内容

本教程详细介绍了如何利用python的beautiful soup库从非结构化html中精确提取特定文本内容。文章聚焦于使用css选择器(特别是`:has`伪类)来定位包含特定子元素的`

`标签,并结合`stripped_strings`属性高效地获取`
`标签后的目标文本,旨在提供一种健壮且专业的html解析方案。

引言:HTML解析的挑战与Beautiful Soup

网络爬虫和数据提取领域,从HTML页面中获取所需信息是一项常见任务。然而,由于HTML结构的多样性和非标准化,尤其是在处理“非结构化”或仅遵循松散约定的HTML时,精确地定位并提取目标数据可能极具挑战性。Python的Beautiful Soup库因其强大的解析能力和友好的API,成为解决这类问题的首选工具。它能够将复杂的HTML文档转换成一个Python对象,使得开发者可以通过标签名、属性、CSS选择器等多种方式轻松导航和搜索文档树。

本教程将通过一个具体示例,演示如何从一个包含嵌套标签和换行符的HTML片段中,提取特定标签后
标签分隔的文本内容。

理解目标与传统方法的局限性

假设我们有以下HTML结构,目标是提取“aaa”和“bbb”这两个文本片段:




    
Swan Flower
Playground
Animal:
aaa
Fish:
bbb

观察目标文本“aaa”和“bbb”,它们都位于

标签内,并且紧跟在标签和一个
标签之后。这些标签有一个共同的属性colspan="2"。

立即学习前端免费学习笔记(深入)”;

一个常见的初步尝试可能是使用find_all方法结合属性字典来定位:

import requests
from bs4 import BeautifulSoup

# 假设已通过requests获取到response
# response = requests.get(url='www.example.com', ...)
# soup = BeautifulSoup(response.content, 'html.parser')

# 示例使用硬编码HTML字符串
html_text = """... (上述HTML代码) ..."""
soup = BeautifulSoup(html_text, 'html.parser')

# 尝试使用find_all方法
# results = soup.find_all('td', {'colspan': '2', 'strong': True}) # 这种方式是错误的
# 错误的理解:'strong': True 试图匹配td标签自身是否有一个名为'strong'的属性,而不是是否包含子标签
# 实际的find_all通常用于匹配标签自身的属性
results = soup.find_all('td', colspan='2') # 这样会匹配所有colspan=2的td标签

上述尝试中,{'colspan': '2', 'strong': True}作为find_all的第二个参数,期望匹配

标签的属性。然而,strong并非 标签的属性,而是其子标签。因此,这种直接的find_all调用无法实现“查找包含子标签的”这一目标,导致返回空列表。

使用CSS选择器进行精确匹配

Beautiful Soup支持强大的CSS选择器,这为复杂的元素定位提供了优雅的解决方案。soup.select()方法允许我们使用CSS选择器语法来查找匹配的元素。

Magician
Magician

Figma插件,AI生成图标、图片和UX文案

下载

:has()伪类选择器

要解决“查找包含子标签的”的问题,我们可以利用CSS选择器中的:has()伪类。虽然原生的CSS标准中:has()是一个相对较新的特性,但在Beautiful Soup中,它通常能够被正确解析和应用。

选择器 td:has(strong) 的含义是:选择所有是

标签,并且其内部包含(作为后代)一个标签的元素。
from bs4 import BeautifulSoup

html_text = """



    
Swan Flower
Playground
Animal:
aaa
Fish:
bbb
""" soup = BeautifulSoup(html_text, "html.parser") # 使用CSS选择器定位包含标签的 target_tds = soup.select("td:has(strong)") print("找到的标签数量:", len(target_tds)) # 预期输出: 找到的标签数量: 2

这段代码将准确地返回包含Animal:和Fish:的两个标签。

提取目标文本内容

一旦我们定位到正确的

标签,下一步就是从这些标签中提取“aaa”和“bbb”这样的文本。注意到这些文本都位于
标签之后。Beautiful Soup提供了一个非常便利的属性:stripped_strings。

stripped_strings是一个生成器,它会遍历一个标签及其所有子孙标签中的所有非空字符串,并去除字符串两端的空白字符。对于我们的目标

标签:

    Animal:
    
aaa

其stripped_strings会依次生成:

  1. "Animal:" (来自标签)
  2. "aaa" (来自
    标签后的文本节点)

因此,我们只需要获取stripped_strings生成的最后一个字符串即可。

from bs4 import BeautifulSoup
import requests # 引入requests用于实际网页抓取

# 模拟从URL获取HTML内容
def fetch_html(url, params=None, timeout=120):
    try:
        response = requests.get(url, params=params, timeout=timeout)
        response.raise_for_status() # 检查HTTP请求是否成功
        return response.content
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

# 示例HTML,实际应用中可以从fetch_html获取
html_text = """



    
Swan Flower
Playground
Animal:
aaa
Fish:
bbb
""" # 如果是实际网页,可以这样获取 # url = 'https://www.example.com' # params = {'api_key': 'YOUR_API_KEY', 'custom_cookies': 'PHPSESSID=SESSIONID,domain=DOMAIN.com;'} # html_content = fetch_html(url, params=params) # if html_content: # soup = BeautifulSoup(html_content, "html.parser") # else: # print("无法获取HTML内容,使用示例字符串进行解析。") # soup = BeautifulSoup(html_text, "html.parser") # 对于本教程,直接使用硬编码的html_text soup = BeautifulSoup(html_text, "html.parser") extracted_texts = [] for td in soup.select("td:has(strong)"): # 将stripped_strings生成器转换为列表,并获取最后一个元素 text = list(td.stripped_strings)[-1] extracted_texts.append(text) print(text) print("\n所有提取的文本:", " ".join(extracted_texts))

预期输出:

aaa
bbb

所有提取的文本: aaa bbb

注意事项与最佳实践

  1. HTML解析器选择: html.parser是Python标准库自带的解析器,性能适中。对于格式不规范的HTML,lxml(需要单独安装,pip install lxml)通常更快且更健壮,而html5lib(也需安装)则能更好地模拟浏览器解析行为,处理极度损坏的HTML。根据实际需求选择合适的解析器。
  2. CSS选择器的灵活性: soup.select()支持大部分CSS选择器语法,包括类选择器(.class)、ID选择器(#id)、属性选择器([attr=value])、子元素选择器(parent > child)、后代选择器(parent child)、兄弟选择器(sibling + sibling或sibling ~ sibling)等。熟练运用CSS选择器可以大大简化定位逻辑。
  3. stripped_strings与get_text():
    • get_text()方法会获取一个标签内所有文本内容,并可以指定分隔符。它返回的是一个单一字符串。
    • stripped_strings是一个生成器,按顺序提供标签内部的每个非空字符串片段。当需要区分不同文本片段或处理文本节点之间的分隔时,stripped_strings更为合适。
  4. 健壮性考虑:
    • 空列表处理: soup.select()如果找不到匹配的元素会返回空列表。在迭代之前,最好检查列表是否为空,或在循环内部添加错误处理,以防list(td.stripped_strings)[-1]在stripped_strings为空时引发IndexError。
    • HTML结构变化: 实际网页的HTML结构可能随时变化。编写解析代码时,应尽量选择更稳定的定位方式(例如ID、特定属性等),并考虑备用方案。
    • 空白字符处理: stripped_strings会自动去除文本两端的空白。如果需要保留内部的空白,可以使用strings属性。

总结

本教程展示了如何使用Beautiful Soup结合CSS选择器(特别是:has()伪类)来解决从非结构化HTML中提取特定文本的挑战。通过td:has(strong)精确地定位目标

标签,再利用stripped_strings属性高效地获取
标签后的文本,我们构建了一个既专业又健壮的解析方案。掌握这些技巧,将使您在处理各种复杂的HTML数据提取任务时更加得心应手。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

414

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1501

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

624

2023.11.24

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

19

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 24.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号