最直接的是用 string.format 或插值字符串填充模板,但需避免路径反斜杠误解析、花括号冲突、换行丢失等问题;应统一占位符格式、慎用 json 序列化、控制日期格式、规避循环引用,并优化 i/o 性能。

用 String.Format 或插值字符串填充模板最直接,但别硬拼接路径和换行
模板文件本质是带占位符的文本,比如 {Name}、{Age},C# 里最顺手的是字符串插值或 String.Format。但直接读取模板后全量替换容易出问题:Windows 路径反斜杠被误解析、模板里有花括号却不是占位符(比如 JSON 或正则)、多行缩进错乱。
- 用
File.ReadAllText读模板,别用ReadAllLines再string.Join,后者会丢原始换行符(尤其是\r\n和\n混用时) - 占位符统一用
{key}格式,避免混用$"..."和String.Format—— 插值字符串在编译期就解析,没法动态换 key;String.Format支持运行时 key 名,更适合模板场景 - 如果模板含 JSON 片段,把占位符改成
[[Name]]这类非标准符号,再用Replace替换,避开{}解析冲突
生成“逼真”数据的关键不在随机,而在分布模拟和关联约束
单纯用 Random.Next() 填数字,生成的 Age 可能全是 17–25,Salary 全是 8000–12000,现实里没这么整齐。真实数据有偏态分布、字段间逻辑关系(比如 BirthDate 和 Age 必须自洽),还有常见值聚集(如城市名 “Beijing”、“Shanghai” 出现频率远高于 “Zhengzhou”)。
- 用
Random.Shared(.NET 6+)代替 new Random(),避免高并发下种子重复导致数据雷同 - 年龄别用
Next(18, 80)均匀分布,改用加权列表:new[] { (25, 0.4), (35, 0.3), (45, 0.2), (55, 0.1) },按概率抽 - 姓名、地址这类文本,别靠
Guid.NewGuid().ToString()造,用预置的中文姓氏/常用词库 + 随机组合,否则全是“张aa”“李bb”这种假名 - 如果模板里同时有
{OrderDate}和{ShipDate},必须保证后者晚于前者,用DateTime.AddDays(random.Next(1, 5))关联生成
System.Text.Json 序列化模板变量时注意类型丢失和循环引用
有人喜欢把模板变量定义成 class,然后用 JsonSerializer.Serialize 填进模板——这在 JSON 模板里很常见。但默认序列化器对 DateTime 输出 ISO 格式("2023-01-01T00:00:00"),而模板可能只想要日期部分;更麻烦的是,如果 class 里有 public List<orderitem> Items { get; set; }</orderitem>,而 OrderItem 又引用了 Order,就会抛 System.Text.Json.JsonException: A possible object cycle was detected。
- 用
JsonSerializerOptions.WriteIndented = false,避免序列化结果带多余空格和换行,污染模板结构 - 日期格式控制:加
Converters,比如options.Converters.Add(new JsonStringEnumConverter()),或自定义JsonConverter<datetime></datetime>输出"yyyy-MM-dd" - 遇到循环引用,要么提前断开引用(如
item.Order = null),要么用ReferenceHandler = ReferenceHandler.Preserve(需 .NET 7+),但会引入$id字段,可能破坏模板预期
批量生成时文件 I/O 是瓶颈,别每条数据都 File.WriteAllText
生成 10 万条测试数据,如果每次调用 File.WriteAllText("data_00001.txt", content),光系统调用开销就能拖慢几倍。磁盘写入不是瓶颈,频繁打开/关闭文件句柄才是。
- 用
StreamWriter复用一个文件句柄,逐条WriteLine,比反复WriteAllText快 3–5 倍 - 如果目标是多个独立文件(如每条数据一个 JSON 文件),改用
Parallel.ForEach+ 分块写入,但要限制MaxDegreeOfParallelism(建议 ≤4),否则磁盘队列打满反而更慢 - 模板内容不变的部分(比如固定 header、footer)提前提取,不要每次循环都
File.ReadAllText一遍
生成大量测试数据时,最容易被忽略的是「模板与数据的耦合粒度」:一个模板对应一条记录?还是一组记录?如果模板本身含循环结构(比如订单里多个商品),就得用 foreach 在模板内展开,而不是靠外部循环生成多个文件——这时候,简单字符串替换就不够用了,得上轻量模板引擎,比如 Scrutor 或手写状态机。










