python用xml.etree.elementtree解析xml最稳妥,需用et.parse()加载、按预定义字段顺序提取、手动处理类型转换、分批生成insert语句并注意路径与嵌套结构。

Python里用xml.etree.ElementTree解析XML最稳
直接用标准库,不装额外包,兼容Python 3.6+,没版本踩坑风险。第三方库像lxml虽快但Windows下常因编译失败卡住,纯ElementTree够用。
常见错误是把XML当字符串硬切——比如用split()或正则去提字段,一旦属性带换行、CDATA块或命名空间就崩。必须走DOM解析。
- 先用
ET.parse()加载文件,别用ET.fromstring()处理含BOM或编码声明的XML - 根节点名不一定是
root,打印tree.getroot().tag确认真实根标签 - 子元素循环用
for child in root:,别依赖索引——顺序可能变,也未必每条记录结构一致
生成INSERT语句时字段顺序必须和表结构严格对齐
XML里字段顺序≠数据库表字段顺序。比如XML是<name><id><email></email></id></name>,但表定义是id,name,email,直接按XML顺序拼VALUES会报错Column count doesn't match value count。
实操建议:把目标表字段列表写死在代码里,用它驱动值提取顺序。
- 建一个元组
TABLE_COLS = ('id', 'name', 'email'),别从XML反推 - 每个记录循环中,按
TABLE_COLS顺序查对应子元素:record.find('id').text,找不到就设为None - 字符串值务必用单引号包裹,且内部单引号要转义:
value.replace("'", "''")(SQL Server)或value.replace("'", "\'")(MySQL)
空值、布尔值、数字类型得手动转换
XML所有内容都是字符串,但SQL里NULL、TRUE、123不能加引号。不处理会触发Invalid column type或类型转换失败。
典型场景:状态字段存"true"/"false",ID字段存" 42 ",时间字段存"2023-01-01"。
-
None或空白文本 → SQL的NULL(不加引号) - 布尔字符串
"true"/"false"→ 转成1/0(MySQL)或TRUE/FALSE(PostgreSQL) - 数字字段用
int()/float()强转,捕获ValueError后 fallback 到NULL - 日期字段别直接塞字符串,检查是否符合
YYYY-MM-DD格式,否则INSERT可能被DB静默截断
大文件别一次性生成全部INSERT,用分批提交
万级记录拼一个超长INSERT INTO ... VALUES (...),(...),...,MySQL默认max_allowed_packet撑不住,PostgreSQL可能OOM,SQLite直接报too many SQL variables。
安全做法是每500条记录打包成一个INSERT语句,中间用;分隔,而非拼成一条巨无霸。
- 开个计数器,累计到500就输出当前批次并清空缓冲区
- 每批开头加
BEGIN TRANSACTION;,结尾加COMMIT;(如果目标DB支持) - 路径写死时用
os.path.join('output', 'inserts.sql'),避免Windows反斜杠引发路径错误
真正麻烦的是嵌套结构——比如一个<order></order>里含多个<item></item>,这时得先拆出主表记录,再遍历子项生成关联INSERT。那部分逻辑没法偷懒,得按实际XML Schema硬写。










