0

0

C# 文件内容实体识别(NER) C#如何从文本文件中提取人名、地名等实体

幻夢星雲

幻夢星雲

发布时间:2026-03-01 02:19:11

|

890人浏览过

|

来源于php中文网

原创

stanford.nlp.corenlp是c#中较易上手的ner方案,但需.net 6+、解压模型文件、单例复用crfclassifier;中文需专用模型;microsoft.ml仅支持粗粒度二分类;规则+词典法更稳定高效;务必显式处理文件编码与换行。

c# 文件内容实体识别(ner) c#如何从文本文件中提取人名、地名等实体

Stanford.NLP.CoreNLP 做基础 NER 识别,但要注意 .NET 版本兼容性

直接上 Stanford.NLP.CoreNLP 是 C# 里最接近开箱即用的方案,但它不是纯托管库——底层依赖 Java 运行时和模型文件。.NET 6+ 可以跑,但 net472 或更老版本容易卡在 JNI 加载失败或路径解析异常上。

实操建议:

  • 优先用 dotnet new console -f net6.0 新建项目,避免在旧框架下硬扛
  • 模型文件(如 english.all.3class.distsim.crf.ser.gz)必须解压后放在可读路径,CRFClassifier 不接受压缩包直读
  • 初始化耗时明显(2–5 秒),别在循环里反复 new CRFClassifier,应单例复用
  • 中文 NER 需换模型(如 chinese.misc.distsim.crf.ser.gz),英文模型对中文基本无效

Microsoft.ML + 预训练管道能跑通,但实体粒度粗、不可定制

Microsoft.MLTextClassificationTrainerMultiClassClassificationTrainer 可以训一个“是否为人名”的二分类器,但本质是序列标注的简化版——它不输出 BIO 标签,也不支持地名/机构名等多类型区分。

常见错误现象:

  • 把整句当一个样本喂进去,结果模型只学了“这句话有没有人名”,而非“哪几个字是人名”
  • FeaturizeText 默认参数,词向量没对齐空格和标点,导致“张三,李四”被切为 ["张三,", "李四"],逗号粘在人名后面
  • 训练数据没做字符级对齐,标签序列长度和输入文本长度不一致,训练直接抛 ArgumentException

如果真要用,得自己写 IProcessor 实现字符级分词 + BIO 编码,工作量接近重写标注 pipeline。

AI Web Designer
AI Web Designer

AI网页设计师,快速生成个性化的网站设计

下载

绕过 NER 模型,用规则 + 词典快速提取(适合人名/地名有限场景)

如果你处理的是内部日志、工单或结构化程度高的文本(比如“客户:王建国,地址:杭州市西湖区文三路…”),规则法反而更稳、更快、更容易 debug。

实操建议:

  • 人名用常见姓氏表 + 2–3 字正则:@"(赵|钱|孙|李|周|吴|郑|王)、?[一-龥]{1,2}",注意中文顿号、逗号都可能是分隔符
  • 地名用行政区划词典(省/市/区三级)构建 HashSet<string></string>,再用 IndexOfAny 或 Aho-Corasick 算法批量匹配
  • 避免用 String.Contains 扫描全文——“海”会命中“上海”“海口”“青海”,得加前后边界判断(如 \b上海\b,但中文无 \b,改用 (?)
  • 词典加载进内存后,整个匹配过程不依赖网络、不加载模型,冷启动零延迟

别忽略编码和换行问题,File.ReadAllText 默认不是 UTF-8

很多 NER 结果乱码或漏识别,根本原因不在模型,而在文件读取阶段。Windows 记事本保存的文本默认是 GBKUTF-8 with BOM,而 File.ReadAllText(path) 在没指定编码时会按系统区域设置猜,猜错就全崩。

必须显式指定:

  • 读取前先用 File.ReadAllBytes 检查 BOM:bytes[0] == 0xEF && bytes[1] == 0xBB && bytes[2] == 0xBFUTF-8
  • 否则 fallback 到 Encoding.Default(通常是 GBK),再转成统一 UTF-8 处理
  • 换行符混用(\r\n / \n)不影响 NER,但会影响基于行的预处理逻辑,建议统一 .Replace("\r\n", "\n").Replace("\r", "\n")

NER 模型本身不关心编码,但输入字符串一旦是乱码,模型输出就是无意义字符——这点比选哪个库还关键。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

890

2023.08.02

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

890

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

645

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1088

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1042

2024.04.29

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

6

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.4万人学习

C 教程
C 教程

共75课时 | 5万人学习

C++教程
C++教程

共115课时 | 19.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号