Python lxml strip_tags 去除XML标签保留文本

畫卷琴夢

发布时间：2026-03-19 11:17:31

293人浏览过

来源于php中文网

原创

lxml库没有strip_tags函数，应使用etree.tostring(doc, method='text', encoding=None)提取纯文本，或用xpath('.//text()')获取文本节点列表后清洗。

python lxml strip_tags 去除xml标签保留文本

lxml strip_tags 不存在，别白搜了

lxml 库压根没有 strip_tags 这个函数——这是很多人卡住的第一步。它常见于 Django 或 BeautifulSoup 的语境里，但在 lxml 中，你得用别的组合方式实现“去标签、留文本”。直接 import 或调用会报 AttributeError: module 'lxml.etree' has no attribute 'strip_tags'。

用 etree.tostring + method='text' 是最稳的替代方案

真正能干净提取纯文本（不含标签、保留换行和空格逻辑）的是 etree.tostring() 配合 method='text' 参数。它不是简单删标签，而是按 DOM 文本节点遍历拼接，对嵌套、注释、CDATA 都有合理处理。

必须传 encoding=None，否则返回 bytes，还得 decode，容易漏
结果里会有换行符和多余空白，因为 XML 原文里的文本节点就是这么存的
如果原文有实体（如），method='text' 不解码，得额外用 html.unescape()
不支持 XPath 过滤，想只取某部分文本得先用 xpath() 定位元素，再对每个结果调用

from lxml import etree
doc = etree.fromstring('<div>Hello<b>World</b>!</div>')
text = etree.tostring(doc, method='text', encoding=None)
# → 'HelloWorld!'

用 xpath('.//text()') 灵活但容易掉坑

这个方法能拿到所有文本节点，适合需要控制合并逻辑或跳过某些区域的场景，但默认行为很“诚实”：注释、处理指令、空白节点全出来，一不留神就多出空字符串或乱码。

结果是字符串列表，不是单个字符串，得自己 ''.join() 或过滤
//text() 会抓到元素间的空白（比如换行缩进），常需 filter(None, ...) 或 strip() 清洗
如果 XML 里有 CDATA 块，它的内容会被当作文本节点原样返回；但注释节点不会被 //text() 匹配到
性能略低于 method='text'，尤其文档大时，因为要构造完整节点列表

texts = doc.xpath('.//text()')
clean_text = ''.join(t.strip() for t in texts if t.strip())
# 注意：这里 strip() 会吃掉所有前后空格，包括段落间有意义的缩进

别用 re.sub(r'<.*?>', '', ...) 处理 XML

正则删标签在 XML 场景下属于高危操作：嵌套标签、属性含 >、CDATA、注释、自闭合标签都会让正则崩。哪怕看起来“这次能跑”，下次换个输入就出错，而且错误难以定位。

WisPaper

复旦大学研发的AI学术搜索工具，5分钟内筛选1000篇论文

下载

立即学习“Python免费学习笔记（深入）”；

例如 <img src="a>b" /> 会让 re.sub(r'<.*?>', '') 删掉从 <img 到后面第一个 > 的全部，破坏后续结构
XML 声明（<?xml ...?>）、DOCTYPE、命名空间声明全会被误伤
没有解析上下文，无法区分标签和普通文本里的尖括号（比如代码示例中出现的 <div>）

真要快速原型且确定输入绝对简单，可以临时用，但上线前必须换成 etree 方案。

真正麻烦的不是选哪个方法，而是得时刻记住：lxml 的文本提取永远依赖解析后的树结构，没 parse 就谈不上 clean。很多问题其实出在 etree.fromstring() 失败后还硬往下走，结果 doc 是 None，后面全报错。

相关标签:

django beautifulsoup 命名空间 xml Filter 字符串 Attribute dom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何校验上传的XML格式在后端验证XML是否符合XSD标准下一篇：Java中TrAX API是什么 (Transformation API for XML)

作者最新文章

Minimax提示词的常见错误 Minimax生成失败案例避坑

2026-03-17 15:53

Android vector viewportHeight详解矢量图视口高度设置

2026-03-17 16:00

XML文件如何添加DOCTYPE声明 Python脚本插入DTD引用

2026-03-17 16:09

C#文件权限设置 C#如何修改文件的读写执行权限

2026-03-17 16:14

uni-app手写签名板 uni-app如何使用canvas实现签名

2026-03-17 16:19

如何用XQuery更新XML文档 XQuery Update Facility

2026-03-17 16:22

XSLT怎么根据条件动态选择应用的模板

2026-03-17 16:23

layui table跨页选择数据 layui表格如何保留跨分页的复选框状态

2026-03-17 16:32

Layui表格done回调函数怎么修改DOM元素

2026-03-17 16:37

layui tree默认展开节点 layui树组件如何指定展开

2026-03-17 16:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python Web 框架 Django 深度开发

本专题系统讲解 Python Django 框架的核心功能与进阶开发技巧，包括 Django 项目结构、数据库模型与迁移、视图与模板渲染、表单与认证管理、RESTful API 开发、Django 中间件与缓存优化、部署与性能调优。通过实战案例，帮助学习者掌握使用 Django 快速构建功能全面的 Web 应用与全栈开发能力。

169

2026.02.04