0

0

SQL XML 数据转换与清洗实践

舞夢輝影

舞夢輝影

发布时间:2026-02-21 18:53:36

|

943人浏览过

|

来源于php中文网

原创

sql导出xml时字段值被转义是符合标准的行为,需根据下游需求决定是否跳过;postgresql用xmlforest()+xmlelement()避免二次转义,mysql需replace按序还原;sql server应改用for xml path或raw扁平化结构;python解析时须强制指定encoding防乱码;xml转json应预埋type属性或直接用for json避免类型丢失。

sql xml 数据转换与清洗实践

SQL 查询结果导出为 XML 时字段值被转义怎么办

MySQL 和 PostgreSQL 默认用 XMLSERIALIZECONCAT 拼接 XML 时,会把 &、<code>> 自动转成 &、<code>>,导致下游解析失败。这不是 bug,是 XML 标准行为,但清洗阶段常被误认为“数据损坏”。

实际做法取决于你是否真需要合法 XML:如果只是中间格式且下游是自研解析器,可跳过转义;否则必须保留。PostgreSQL 推荐用 xmlforest() + xmlelement() 组合,它默认不二次转义已合法的文本节点;MySQL 则得手动用 REPLACE(REPLACE(REPLACE(...)) 回填,但要注意顺序——先处理 & 再处理 和 <code>>,否则会套叠。

  • PostgreSQL 示例:SELECT xmlelement(name row, xmlforest(id, name, REPLACE(content, '&', '&') AS content)) FROM posts;
  • MySQL 临时绕过法:SELECT CONCAT('<row><id>', id, '</id><content>', content, '</content></row>') FROM posts;(仅限 content 确认无非法字符)
  • 别在应用层再对数据库输出的 XML 做一次 html_entity_decode,那会把本该保留的   也干掉

SQL Server 的 FOR XML AUTO 生成嵌套结构太深怎么压平

FOR XML AUTO 会按 JOIN 顺序自动建层级,比如 SELECT u.name, o.amount FROM users u JOIN orders o ON u.id = o.user_id FOR XML AUTO 会产出 <u name="..."><o amount="..."></o></u>,但多数 API 只要扁平数组。硬改 SQL 逻辑成本高,不如在 XML 生成后切片处理。

关键不是禁用 AUTO,而是换用 FOR XML RAWFOR XML PATH('')。前者每行一个同名节点,后者允许手写标签名并拼接字段,天然扁平。注意 PATH('') 中空字符串不生成外层包裹,适合做 CSV 式拼接;若需根节点,最后用 SELECT '<root>' + (子查询) + '</root>' 包一层即可。

  • 扁平化示例:SELECT id AS '@id', name AS 'text()', '' AS 'data()' FROM users FOR XML PATH('user'), ROOT('users');
  • 避免用 FOR XML EXPLICIT —— 它要求显式定义 tag/id/parent,字段一多就难维护
  • SQL Server 2016+ 支持 STRING_AGG,可先聚合再包 XML,比嵌套 FOR XML 更可控

用 Python etree 处理 SQL 导出的 XML 时中文乱码或解析失败

根本原因常是编码声明和实际字节不一致。SQL Server 导出 XML 默认带 <?xml version="1.0" encoding="UTF-16"?>,但文件保存或管道传输时可能被当 UTF-8 读取;PostgreSQL 的 xml_out 函数输出的是 UTF-8 字节,却可能没写 encoding 声明,etree 就按系统默认编码猜,一猜就错。

PHP实现XML与数据格式进行转换类
PHP实现XML与数据格式进行转换类

PHP实现XML与数据格式进行转换类

下载

最稳做法:不依赖 XML 声明,强制指定编码。用 etree.fromstring() 时传 parser=etree.XMLParser(encoding='utf-8');如果是文件,用 etree.parse(filename, parser)。若数据来自网络响应,先用 response.content(bytes)而非 response.text(str),避免 requests 自动解码污染原始字节。

  • 安全读取示例:parser = etree.XMLParser(encoding='utf-8'); root = etree.fromstring(xml_bytes, parser)
  • 别用 open(filename).read() 直接喂给 etree —— 缺少 encoding 参数时 Python 3 默认用 locale 编码,Windows 上就是 gbk
  • 清洗前先检查前 100 字节:print(repr(xml_bytes[:100])),看是否有 b'\xff\xfe'(UTF-16 LE BOM)

XML 转 JSON 后数组丢失、字段类型错乱怎么对齐

XML 本身没有数组/对象/布尔/数字类型概念,所有内容都是字符串。工具如 xmltodict 把单个 <item>123</item> 当 str,两个同名节点才转 list,但 SQL 导出常因数据量少只生成一个节点,导致下游 JSON Schema 校验失败。

解决思路不是改转换库,而是在 XML 层面预埋结构提示。PostgreSQL 可用 array_to_json(ARRAY(SELECT ...)) 先转 JSON 再包进 XML;SQL Server 用 FOR JSON PATH 替代 FOR XML;实在不行,在 XML 中用属性标记类型,例如 <price type="number">99.9</price>,然后写个轻量解析器识别 @type 并 cast。

  • PostgreSQL 预转 JSON 示例:SELECT xmlelement(name data, xmlforest(to_jsonb(ARRAY(SELECT json_build_object('id', id, 'name', name) FROM users)) AS items))
  • 别依赖 xmltodict.parse(xml_str, force_list=('item',)) 这种全局配置 —— 它会让所有 <item></item> 强制变 list,连 <count>1</count> 也变 [1]
  • SQL Server 2016+ 直接用 SELECT * FROM users FOR JSON AUTO,比 XML+JSON 两步更可靠

真正麻烦的是混合类型字段,比如一个 <value></value> 有时存 "true",有时存 "123",有时存 "2023-01-01"。这种没法靠格式自动判断,得在 SQL 层用 CASE WHEN 显式分类,或者接受它在 JSON 里全是字符串——清洗逻辑本就该在业务层,不在序列化环节。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1006

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

335

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

379

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1782

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

376

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1332

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

436

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

916

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号