命名实体是文本中具有唯一指代意义的专有名称,如“张伟”“北京市”“腾讯公司”“2025年12月3日”,需满足三个条件:有明确边界、属于预定义类型(如PER、LOC、ORG、TIME等)、具有唯一指称性;例如“上海虹桥站”为完整地名,“苹果公司”为机构名,而“

命名实体指的是文本中带有明确指代意义的专有名称,比如“张伟”“北京市”“腾讯公司”“2025年12月3日”这类能唯一指向某个人、地点、组织或时间点的词或短语。“命名”强调它不是泛指(如“一个程序员”),而是像身份证号一样具有刚性指称作用。
命名实体的核心特征
它必须满足三个条件:
- 有明确边界——能从句子中切分出来,比如“他昨天去了上海虹桥站”,整个“上海虹桥站”是一个地名实体,不能只取“虹桥”或拆成“上海/虹桥/站”
- 属于预定义类型——常见类别包括人名(PER)、地名(LOC)、机构名(ORG)、时间(TIME)、日期(DATE)、货币(MONEY)等
- 具有唯一指称性——“苹果”在“吃苹果”里是水果,不算命名实体;但在“苹果公司发布了新手机”中,“苹果公司”就是ORG类命名实体
它们不是NER里的概念,而是网页编码中用来安全显示特殊符号的写法:
表示小于号 ,避免被浏览器误认为HTML标签的开头(比如把当成标签解析)&表示英文符号 &,因为&在HTML中用于引入字符实体(如©),直接写&会导致解析错误简单说:它们是“转义符”,让浏览器按字面意思渲染,而不是当作语法结构处理。
为什么容易混淆这两个“&”?
因为NER任务的输入常来自网页文本,而原始HTML里就含
&这类编码。如果没先解码就送进NER模型,可能把识别成“组织名”,或把当成乱码实体——所以实际处理前通常要先做HTML解码。基本上就这些。










