当C#遇到格式混乱的XML 宽容模式解析与数据提取

畫卷琴夢

发布时间：2026-01-14 09:17:02

902人浏览过

来源于php中文网

原创

使用宽容模式解析不规范XML，结合XmlReader设置与HtmlAgilityPack，预处理清洗数据并防御性提取关键内容。

当c#遇到格式混乱的xml 宽容模式解析与数据提取

处理格式不规范的XML是实际开发中常遇到的问题，尤其在对接第三方系统或读取老旧数据时。C# 提供了多种方式来解析 XML，但在面对标签未闭合、属性缺失引号、编码错误等混乱情况时，默认解析器容易抛出异常。这时候需要启用“宽容模式”并结合合适的方法提取有效数据。

使用XmlReader配置宽容选项

标准的 XmlDocument 和 XDocument 在遇到非法 XML 时会直接报错，但 XmlReader 允许通过设置 XmlReaderSettings 来放宽验证规则。

虽然 .NET 原生并不支持像 HTML 解析器那样的完全容错（如 AngleSharp 或 HtmlAgilityPack），但可以配合外部库或调整输入提升鲁棒性。

设置 CheckCharacters = false 忽略非法字符
关闭 ValidateOnParse = false 防止 DTD 验证中断解析
启用 IgnoreWhitespace = true 减少因空格导致的结构误判

// 示例：创建宽容的 XmlReader

var settings = new XmlReaderSettings
{
    CheckCharacters = false,
    ValidateOnParse = false,
    IgnoreWhitespace = true,
    IgnoreComments = true,
    IgnoreProcessingInstructions = true
};
<p>using var reader = XmlReader.Create(streamOrPath, settings);
var doc = new XmlDocument();
doc.Load(reader); // 尽量加载可识别部分
</p>

借助HtmlAgilityPack解析类XML内容

当 XML 混乱到接近 HTML 的程度（例如标签不闭合、嵌套错误），推荐使用 HtmlAgilityPack —— 它专为容忍语法错误而设计，也能用于非标准 XML。

安装 NuGet 包：HtmlAgilityPack
将混乱 XML 当作 HTML 文档加载
利用 XPath 提取节点，即使原始结构残缺

// 示例：用 HtmlAgilityPack 加载破损 XML

OneAI

将生成式AI技术打包为API，整合到企业产品和服务中

下载

var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.OptionFixNestedTags = true;       // 自动修复嵌套
htmlDoc.OptionAutoCloseOnEnd = true;      // 遇到结束标签自动补全
htmlDoc.OptionCheckSyntax = false;
htmlDoc.Load(filePath); // 即使格式错误也能读入
<p>// 使用类似 XPath 的方式提取数据
var nodes = htmlDoc.DocumentNode.SelectNodes("//item");
foreach (var node in nodes)
{
var id = node.GetAttributeValue("id", "");
var name = node.SelectSingleNode("name")?.InnerText.Trim();
Console.WriteLine($"{id}: {name}");
}
</p>

预处理清洗脏数据

在解析前对原始文本做简单清洗，能显著提高成功率。

移除非法控制字符（如 ASCII 0-8, 11-12, 14-31）
补全明显缺失的引号或尖括号（谨慎使用）
替换 & 为 & 防止实体解析失败
将自闭合标签（如 <br>）规范化为 <br>

// 清洗示例

string CleanXmlString(string input)
{
    // 移除非法 XML 字符
    var cleaned = Regex.Replace(input, @"[\x00-\x08\x0B\x0C\x0E-\x1F]", "");
<pre class="brush:php;toolbar:false;">// 修复孤立的 &
cleaned = Regex.Replace(cleaned, @"&(?![a-zA-Z#][a-zA-Z0-9#]*;)", "&");

// 补全常见自闭合标签（视需求扩展）
cleaned = Regex.Replace(cleaned, @"<(img|br|hr|input|meta|link)\b([^>]*)>", 
                        @"<$1$2 />");

return cleaned;

}

灵活提取与容错处理

即使成功加载文档，某些节点仍可能为空或结构异常。编写数据提取逻辑时应保持防御性。

始终检查节点是否为 null 再访问 InnerText 或 Attributes
使用 try-catch 包裹高风险转换（如 int.Parse）
记录解析日志，便于后续修正源头问题

基本上就这些。面对混乱 XML，关键是不要依赖严格标准，而是组合使用宽容读取、外部解析库和前置清洗，把“能救的数据”尽可能捞出来。很多时候不需要完美还原，只要关键字段可用即可。

C#文件锁定超时机制 C#如何尝试锁定文件并在超时后放弃

C# 文件系统ACL的SACL/DACL C#如何精细控制文件的审计和访问权限

c# yield return 是什么原理

C# 读取Linux Procfs/Sysfs C#如何从/proc或/sys虚拟文件系统获取系统信息

C# cgroups文件系统 C#如何通过读写cgroup文件来限制资源

相关标签:

c# html node seo 编码 stream .net NULL try catch xml int ASCII

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Dapper如何执行DDL语句（如CREATE TABLE） Dapper数据库结构操作下一篇：C# 如何实现一个简单的缓存 - MemoryCache的使用

作者最新文章

2026最新Win11还原旧版右键菜单教程（无需第三方软件）

2026-02-28 12:13

钉钉思维导图怎么做钉钉创建思维导图步骤【教程】

2026-02-28 13:33

电脑系统时间不准怎么办自动同步网络时间的方法【一键搞定】

2026-02-28 14:43

浏览器自动刷新网页怎么办禁止网页自动重载设置方法【步骤】

2026-02-28 14:51

Word怎么设置每一章页码从1开始 Word分节显示页码方法【教程】

2026-02-28 14:51

Safari浏览器搜索建议怎么关闭 Safari禁用搜索预载方法【技巧】

2026-02-28 14:57

Word怎么在文字上方加拼音 Word全自动添加拼音标注方法【教程】

2026-02-28 15:04

Excel怎么批量添加单位 Excel数值自动显示单位设置方法【技巧】

2026-02-28 15:14

免费AI Logo设计工具：用豆包一分钟生成品牌Logo

2026-02-28 16:57

豆包AI“AI画师”模式详解，从二次元到写实风格一网打尽

2026-02-28 17:16

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

248

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

947

2024.03.01

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1936

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2116

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1142

2024.11.28

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

910

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

595

2024.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

294

2025.08.29

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板