0

0

C# 文件内容的命名实体链接 C#如何将文本中的实体链接到知识库(如维基百科)

月夜之吻

月夜之吻

发布时间:2026-02-21 05:51:23

|

880人浏览过

|

来源于php中文网

原创

c# 无内置命名实体识别(ner)能力,需依赖外部模型或服务;正则和字符串匹配无法处理歧义与上下文,可靠方案是调用 wikidata wbsearchentities api 或使用 microsoft.ml 加载预训练 ner 模型并做好 token 对齐。

c# 文件内容的命名实体链接 c#如何将文本中的实体链接到知识库(如维基百科)

命名实体识别(NER)不是 C# 标准库自带能力

直接用 System.IOstring.Replace 搞不定实体链接——C# 本身不提供开箱即用的命名实体识别(NER)功能。你得依赖外部模型或服务,否则连“乔布斯”是不是人名、“苹果”指公司还是水果都分不清。

常见错误现象:Regex.Replace(text, "Apple", "<a href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c">Apple</a>") 会把每处“Apple”都瞎链,结果把“eat an apple”也标成公司链接。

  • 真实场景中必须先做 NER(识别出“Apple Inc.”是组织,“iPhone”是产品),再做消歧(确认这个“Apple”对应维基百科的 Apple_Inc. 页面)
  • .NET 生态里最轻量可用的是 Microsoft.ML + 预训练 NER 模型(如 ner-conll2003),但需自己加载、推理、对齐 token
  • 更稳的路是调用成熟 API:Wikipedia 的 /w/api.php?action=opensearch 只能搜关键词,不理解上下文;要用 Wikidata 或 DBpedia 的 SPARQL 端点,或第三方 NEL 服务(如 spaCy + neuralcoref 的 .NET 封装版)

C# 调用 Wikidata 进行实体消歧的实际写法

维基百科页面名常有歧义(比如“Java”可能是岛屿、语言、咖啡豆),真正靠谱的链接来源是 Wikidata 的 Q 编号(如 Q2514 对应 Java 编程语言)。C# 用 HttpClient 查 Wikidata 的 wbsearchentities API 是目前最可控的方式。

关键参数:search(原文本片段)、language(设为 en 或文本实际语言)、type(建议固定为 item)、limit(别设太大,3–5 足够)

Pixelcut
Pixelcut

AI产品图片处理——背景移除替换、物体抹除和图片放大

下载
  • 别直接拼 URL,用 FormUrlEncodedContent 发 POST,避免 URL 长度限制和编码问题
  • 响应里 id 字段才是你要的 Qxxxxtitle 是维基页面名,不可直接当链接用
  • 注意频率限制:Wikidata 公共端点要求 User-Agent 头含联系邮箱,否则 403;本地部署 Blazegraph 或 Wikibase 才能绕过
  • 示例请求片段:
    var client = new HttpClient();<br>var content = new FormUrlEncodedContent(new Dictionary<string, string><br>{<br>  {"search", "TensorFlow"},<br>  {"language", "en"},<br>  {"type", "item"},<br>  {"limit", "3"}<br>});<br>var res = await client.PostAsync("https://www.wikidata.org/w/api.php?action=wbsearchentities&format=json", content);

为什么不用正则或字符串匹配做实体链接

因为实体边界模糊、大小写敏感、缩写多变、上下文决定含义——"Washington" 在 “Washington D.C.” 里是地名,在 “George Washington” 里是人名,在 “University of Washington” 里又是机构名。

  • 正则写到第 7 个 (?i)\b(Washington|D\.C\.|U\.S\.|https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c) 就开始漏匹配、误匹配,维护成本爆炸
  • String.Contains 完全无法处理“部分匹配”(如把 “New York Times” 错当成 “New York”)
  • 哪怕用 LevenshteinDistance 做模糊匹配,没上下文语义,依然分不清 “Paris” 是法国首都还是德克萨斯小镇
  • 真正可用的方案必须带上下文窗口:至少取实体前后 10 个词送入模型,或用 Wikidata 的 description 字段做语义相似度比对(Microsoft.MLTextFeaturizer 可做)

本地部署 NER+NEL 流程中最容易卡住的环节

不是模型加载失败,而是 token 对齐——C# 里用 Microsoft.ML 加载 HuggingFace 的 dslim/bert-base-NER 模型后,输入文本被 tokenizer 切成 subword(如 “running” → [“run”, “##ning”]),但原始文本位置信息丢了,导致你找不到“哪个字节范围对应哪个实体”。

  • 必须用 transformer.Tokenizer(如 PretrainedTransformerTokenizer)同步做分词,并保留 offsets 映射
  • 别信模型输出的 label 直接对应原字符串索引——要靠 offsets 数组反查起始/结束位置
  • Windows 上若用 ONNX Runtime,记得安装 Microsoft.ML.OnnxRuntime.Gpu(CPU 版本默认不支持某些 NER 输出格式)
  • 一个硬核但有效的调试技巧:打印出 tokenizedInput.InputIdstokenizedInput.Offsets,肉眼对齐前 3 个 token,确认是否漏了空格或换行符

实体链接真正的复杂点不在“怎么连”,而在“连谁”——同一个字符串在不同语境下指向完全不同的 Wikidata 项,而上下文建模和消歧逻辑,恰恰是所有现成库默认省略、需要你自己补全的部分。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

790

2023.08.02

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6404

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

837

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1086

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1649

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

594

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1555

2023.10.24

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

796

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 9.9万人学习

C 教程
C 教程

共75课时 | 4.9万人学习

C++教程
C++教程

共115课时 | 18.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号