如何将非结构化文本数据映射成XML？

星降

发布时间：2026-01-18 07:17:12

832人浏览过

来源于php中文网

原创

xml映射本质是人工定义文本与标签的对应规则，需用正则提取关键字段并转义，优先选用elementtree等api构建结构，复杂场景须用状态机分步解析。

如何将非结构化文本数据映射成xml？

XML 映射的核心其实是定义规则，不是自动转换

没有通用工具能“智能理解”非结构化文本并生成合理 XML。所谓映射，本质是人工定义：哪段文本对应哪个 <tag></tag>，嵌套关系怎么建，空值/异常怎么处理。强行用正则或 LLM 直接吐 XML，大概率产出的是语法正确但语义错乱的文档。

先用正则提取关键字段，再拼装 XML 结构

适用于日志、报表、配置片段等有固定模式的文本。重点不是“匹配全文”，而是锚定可识别的分隔符或前缀。

用 re.findall() 或 re.search() 提取命名组，例如：re.search(r'Name:s*(w+),s*Age:s*(d+)', line)
避免贪婪匹配（.*）导致跨行吞掉内容；改用 [^\n]* 或明确字符集
字段值必须做 XML 实体转义：& → &， → <code><，否则解析会失败

import re
import xml.sax.saxutils

line = "User: Alice, Role: admin, LastLogin: 2024-03-15"
match = re.search(r'User:s*([^,]+),s*Role:s*([^,]+),s*LastLogin:s*(.+)', line)
if match:
    name, role, login = [xml.sax.saxutils.escape(s.strip()) for s in match.groups()]
    print(f"<user><name>{name}</name><role>{role}</role><last_login>{login}</last_login></user>")

用 lxml.etree 或 xml.etree.ElementTree 构建树比字符串拼接更安全

手拼 XML 字符串极易出错：标签不闭合、属性引号不转义、编码混乱。用 Element API 可规避大部分低级错误。

Android创建和使用数据库详细指南中文WORD版

每个应用程序都要使用数据，Android应用程序也不例外，Android使用开源的、与操作系统无关的SQL数据库--SQLite，本文介绍的就是如何为你的Android应用程序创建和操作SQLite数据库。数据库支持每个应用程序无论大小的生命线，除非你的应用程序只处理简单的数据，那么就需要一个数据库系统存储你的结构化数据，Android使用SQLite数据库，它是一个开源的、支持多操作系统的SQL数据库，在许多领域广泛使用，如Mozilla FireFox就是使用SQLite来存储配置数据的，iPhon

下载

lxml.etree 支持直接写入编码（如 encoding='utf-8'），而标准库 xml.etree 在 Python 3.9+ 才修复部分编码 bug
子元素用 SubElement(parent, 'tag') 添加，不要手动写 <child></child>
属性统一走 elem.set('attr', value)，值会自动转义

from lxml import etree

root = etree.Element("records")
record = etree.SubElement(root, "record")
etree.SubElement(record, "id").text = "1001"
etree.SubElement(record, "content").text = "O'Reilly & Associates"
record.set("status", "active")

print(etree.tostring(root, encoding="unicode", pretty_print=True))

遇到多层嵌套或上下文依赖时，必须写状态机或分步解析

比如解析带缩进的配置文件、邮件头+正文混合文本、或含注释的协议数据。此时正则失效，需按行扫描并维护当前层级、是否在块内、上一个字段类型等状态。

不要试图一行正则匹配整个嵌套结构——它不可读、不可调、不可 debug
用字典或类缓存当前上下文，例如：current_section = {'type': 'header', 'depth': 0}
对每行先判断类型（标题行？空行？数据行？），再决定是新建节点、追加文本，还是关闭当前节点

复杂文本的 XML 映射，真正耗时的从来不是生成标签，而是厘清业务语义边界。一个没被意识到的隐含规则（比如“空行只分隔记录，但连续两个空行表示结束”），就能让整批输出失效。

Python xmltodict unparse pretty 格式化输出XML字符串

Python如何比较两个XML文件的结构和内容

XML文件如何去除BOM头 Linux命令移除UTF-8 BOM

Python xml.etree查找特定属性使用XPath语法筛选Attribute

Python生成RSS Feed XML 使用feedgen库创建订阅源

相关标签:

python 编码工具配置文件标准库 xml 字符串 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Ant构建脚本build.xml怎么写 Ant常用任务标签下一篇：C#如何将List<string>序列化为多个XML元素

作者最新文章

1两等于多少克中药1两是现在的几克

2026-03-04 09:28

交易猫安全可靠交易入口交易猫官方担保平台入口

2026-03-04 09:39

XPointer是什么如何用它来定位XML文档的特定部分

2026-03-04 09:40

XML文件如何导入SQL Server 使用OPENROWSET批量导入数据

2026-03-04 09:49

Excel怎么隐藏公式只显示结果 Excel单元格公式隐藏方法【技巧】

2026-03-04 09:55

C#文件操作的流畅API C#如何设计链式调用的文件处理类库

2026-03-04 10:18

C# 文件内容的数据沿袭 C#如何追踪数据在不同文件和处理步骤间的流动

2026-03-04 10:43

电脑磁盘和文件夹怎么加密？Windows自带BitLocker加密教程

2026-03-04 12:28

手机版Safari浏览器入口手机网页版在线入口

2026-03-04 14:21

电脑怎么查看显卡驱动版本升级方法【指南】

2026-03-04 14:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1942

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2117

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1157

2024.11.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

718

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

219

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

647

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1148

2024.03.22

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板