0

0

如何将CSV文件映射成指定的XML格式?

星降

星降

发布时间:2026-01-14 23:22:02

|

783人浏览过

|

来源于php中文网

原创

最可控的CSV转XML方式是用csv.DictReader逐行读取并手动构建ElementTree树结构,需预先定义层级逻辑、处理字段映射与特殊字符,避免依赖XSLT或自动工具。

如何将csv文件映射成指定的xml格式?

用 Python 的 csv + xml.etree.ElementTree 手动构建 XML

这是最可控、最常被需要的方式,尤其当 CSV 字段和 XML 结构不一一对应,或需条件生成节点、重命名字段、嵌套层级时。别指望 csv.DictReader 读出来直接塞进 ElementTree 就能成形——XML 的树状结构和 CSV 的扁平表结构天然不匹配。

关键点:

  • 先定义好目标 XML 的层级逻辑(比如哪列是 <person>,哪几列属于它的子节点 <name> / <contact>
  • csv.DictReader 逐行读取,每行生成一个顶层元素(如 <record>),再按需创建子元素并设 .text.attrib
  • 注意特殊字符:XML 不允许直接写 <& 等,ElementTree 会自动转义,但手动拼字符串则必须用 xml.sax.saxutils.escape()
import csv
import xml.etree.ElementTree as ET

root = ET.Element("data")
with open("input.csv", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    for row in reader:
        record = ET.SubElement(root, "record")
        ET.SubElement(record, "id").text = row["id"]
        name = ET.SubElement(record, "name")
        name.text = row["full_name"]
        contact = ET.SubElement(record, "contact")
        ET.SubElement(contact, "email").text = row["email"]
        ET.SubElement(contact, "phone").text = row["phone"]

tree = ET.ElementTree(root)
tree.write("output.xml", encoding="utf-8", xml_declaration=True)

遇到 CSV 头含空格或特殊符号时怎么处理字段映射

csv.DictReader 默认把第一行当字段名,如果原始 CSV 是 "User ID","Full Name","E-mail",那 row["User ID"] 会报 KeyError——因为键名带空格,但你代码里写的是 row["id"]

解决方法只有两个:

  • fieldnames 参数显式指定干净的字段名:csv.DictReader(f, fieldnames=["id", "name", "email"], skipinitialspace=True),同时加 skipinitialspace=True 忽略字段值前导空格
  • 或在读取后做一次键名映射:mapped = {"id": row["User ID"], "name": row["Full Name"], "email": row["E-mail"]}

别依赖 Excel 自动保存 CSV 后“看起来整齐”——它可能悄悄加了 BOM、用了非标准换行符,或把数字当文本导出导致前后空格,这些都会让 row.get("email") 返回 None 或带空格字符串。

Typeface
Typeface

AI创意内容创作助手

下载

用 XSLT + CSV 转 XML?不现实

有人想走捷径:先把 CSV 转成简易 XML(如用 csvtoxml 工具生成扁平 <row><col1>...</col1></row>),再用 XSLT 变换。这条路在小文件上看似可行,但实际踩坑密集:

  • XSLT 本身不原生支持 CSV 解析,所谓“CSV 转 XML”工具往往只是按逗号硬切,遇带逗号的字段(如 "Smith, John","123 Main St")就崩
  • XSLT 2.0+ 虽有 tokenize(),但处理引号包裹、换行嵌入等 RFC 4180 规范几乎不可能
  • 调试困难:XSLT 错误信息极不友好,AttributeError: 'NoneType' object has no attribute 'text' 这类 Python 错误反而更容易定位

真要用 XSLT,前提是 CSV 已被严格清洗为无引号、无换行、无逗号的纯分隔格式,且字段顺序固定——这种数据现实中极少。

性能瓶颈通常不在解析,而在 XML 构建方式

处理 10 万行 CSV 时,慢的从来不是 csv.reader,而是反复调用 ET.SubElement() 创建大量小对象。如果你的目标 XML 允许,可考虑:

  • 用字符串模板批量拼接(需手动处理转义):f"<id>{escape(row['id'])}</id>"
  • 对超大文件,改用 xml.saxlxmliterparse 流式写入,避免把整个树载入内存
  • 确认是否真需要完整 XML 文档:有时下游只要符合某 DTD 片段,用 print() 直接输出格式化字符串更轻量

最容易被忽略的一点:中文 Windows 下默认编码gbk,但 CSV 文件可能是 utf-8-sig(带 BOM)。不显式指定 encoding="utf-8-sig"csv.DictReader 会把 BOM 当作第一个字段名,导致所有 row.get("id") 都返回 None

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

19

2026.02.03

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1950

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1173

2024.11.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 21.7万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号