C# 文件内容的数据质量验证 C#如何编写规则来校验文件内容是否符合规范

畫卷琴夢

发布时间：2026-03-04 00:39:15

722人浏览过

来源于php中文网

原创

csv校验需用textfieldparser处理引号内逗号、tryparse防溢出、trim去bom/空行/注释，并用fieldrule类统一管理字段规则。

c# 文件内容的数据质量验证 c#如何编写规则来校验文件内容是否符合规范

校验 CSV 文件字段数量是否一致

字段数不一致是最常见的数据质量问题，比如某行多了一个逗号导致解析错位。直接用 string.Split(',') 容易误判，尤其当字段本身含逗号（在引号内）时。

实操建议用 Microsoft.VisualBasic.FileIO.TextFieldParser（.NET Framework / .NET 5+ 可用），它原生支持 RFC 4180 规范：

启用 HasFieldsEnclosedInQuotes = true，正确处理带引号的字段
逐行调用 ReadFields()，检查返回数组长度是否等于预期列数
遇到 null 返回值说明解析失败（如引号不匹配），应立即报错

别自己写正则或手动计逗号——TextFieldParser 是微软封装好的、经过验证的方案。

检测数值字段是否超出业务范围

文件里写着“1234567890123”，但数据库字段是 int，直接 int.Parse() 会抛 OverflowException，而你可能只想要日志+跳过该行。

实操建议分两步走：

先用 int.TryParse() 或 decimal.TryParse() 判断是否可转为数字
再比对业务规则：比如订单金额必须 ≥ 0 且 ≤ 1000000，用 if (value 1_000_000)
避免用 Convert.ToInt32() —— 它在 null 或格式错误时直接抛异常，不利于容错处理

注意：浮点类字段（如 double）要额外防 NaN 和 Infinity，double.IsNaN() 和 double.IsInfinity() 得显式检查。

识别并跳过空行、注释行和 BOM 头

用户导出的 Excel 转 CSV 常带 UTF-8 BOM（\uFEFF），首行可能是 # 导出时间：2024-05-01，或纯空行。这些不报错但会干扰字段对齐。

镝数图表

简单好用的数据可视化工具

下载

实操建议在读取每行后立刻清洗：

用 line.TrimStart('\uFEFF', '\ufeff') 去掉 BOM（大小写都得覆盖）
用 string.IsNullOrWhiteSpace(line) 过滤空行
用 line.TrimStart().StartsWith("#") 跳过注释行（注意前导空格）
别依赖 File.ReadAllLines() 后统一处理——内存压力大，且无法在读到坏行时及时中断

BOM 不是字符编码问题，是字节序标记；不清理就可能导致第一列字段名开头多出不可见字符，后续所有 .Equals("ID") 都失败。

用自定义规则类组织校验逻辑

硬编码 if/else 校验很快会失控，比如“手机号必须 11 位数字”“邮箱需匹配正则”“日期格式为 yyyy-MM-dd”。把规则散落在循环里，改一个就得翻三处。

实操建议定义一个轻量规则类：

public class FieldRule
{
    public string ColumnName { get; set; }
    public Func<string, bool> Validator { get; set; }
    public string ErrorMessage { get; set; }
}

然后按列注册：

new FieldRule { ColumnName = "Phone", Validator = s => s.Length == 11 && long.TryParse(s, out _), ErrorMessage = "手机号必须为11位数字" }
校验时遍历规则列表，!rule.Validator(value) 就记录错误，不 throw
规则可从 JSON 配置加载，避免每次改代码

关键点：规则函数必须是纯函数（无副作用），否则并发读文件时容易出竞态；也不要让规则里去查数据库——校验阶段只做本地判断。

真正难的不是写单条规则，是设计好字段名到规则的映射方式，以及当某行触发多个规则失败时，如何合并错误信息又不淹没关键线索。

C# 文件系统的IO路径压缩 C#在数据写入磁盘前进行透明压缩的优缺点

C# IAsyncResult异步模式 C#传统的APM Begin/End方法如何使用

C# 文件系统的IO公平性 C#如何确保多用户或多任务能公平地获得IO资源

C#隐藏文件操作 C#如何设置或检测文件的隐藏属性

C# 文件上传的边缘计算 C#如何在CDN边缘节点上对上传文件进行预处理

相关标签:

c# json String NULL if 封装 throw int double 循环 Length 并发 bom 数据库 microsoft excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C# 异步方法测试覆盖率 C#如何正确测量async代码的覆盖率下一篇：暂无

作者最新文章

怎么在动图GIF上修改文字 GIF动态图P字教程

2026-03-03 10:13

钉钉思维导图怎么改颜色样式钉钉脑图美化设计技巧【进阶】

2026-03-03 10:40

C# 操作GPG加密文件 C#如何使用GnuPG加密和解密文件

2026-03-03 10:55

C# 操作Azure Blob存储方法 C#如何上传和下载文件到Blob

2026-03-03 11:05

Java面试之MyBatis中#{}和${}的区别

2026-03-03 11:05

Word行间距怎么调调整文档段落间距方法【步骤】

2026-03-03 11:32

谷歌浏览器账号无法同步怎么办 Chrome同步功能修复方法【教程】

2026-03-03 12:02

PPT怎么制作视差滚动效果 PPT平滑切换进阶设计方法【教程】

2026-03-03 14:04

浏览器如何设置禁止自动播放视频屏蔽网页视频自启方法【指南】

2026-03-03 14:16

浏览器被劫持到莫名网站怎么办浏览器恶意病毒查杀方法【方法】

2026-03-03 16:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

452

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23