0

0

如何使用Python进行文本实体识别_NER模型训练详解【指导】

舞夢輝影

舞夢輝影

发布时间:2025-12-23 22:07:02

|

316人浏览过

|

来源于php中文网

原创

Python做NER需选对工具、规范数据、定义标签体系并微调预训练模型;用Hugging Face的Transformers等库加载BERT类模型,按BIO格式标注,对齐tokenizer与标签,用AutoModelForTokenClassification微调,以seqeval评估各项指标。

如何使用python进行文本实体识别_ner模型训练详解【指导】

用Python做文本实体识别(NER),核心是选对工具、准备规范数据、定义标签体系,再微调预训练模型。不一定要从零训练,用Hugging Face的Transformers + Tokenizers + datasets库,配合BERT类模型,效果好、上手快。

准备标注数据:格式和清洗很关键

NER训练数据通常按字或词打标签,常用BIO格式(B-ORG, I-ORG, O)。每行一个字+标签,句子间空行隔开:

李 B-PER
明 I-PER
就 O
职 O
于 O
腾 B-ORG
讯 I-ORG

北 B-LOC
京 I-LOC
大 I-LOC
学 I-LOC

注意三点:

  • 确保所有标点、空格、数字都参与标注,不能跳过
  • 统一编码(UTF-8),避免乱码导致token对齐失败
  • 检查标签一致性:比如“B-LOC”后必须接“I-LOC”,不能出现“B-LOC B-LOC”

加载与预处理:对齐tokenizer和标签

用transformers里的AutoTokenizer加载BERT类分词器(如bert-base-chinese),关键在保持“子词切分”和“标签映射”同步:

立即学习Python免费学习笔记(深入)”;

聚好用AI
聚好用AI

可免费AI绘图、AI音乐、AI视频创作,聚集全球顶级AI,一站式创意平台

下载
  • 原始字序列长度 = 标签序列长度
  • tokenizer分词后可能产生[CLS]、[SEP]、##xx等子词,需把标签映射到第一个子词,其余设为-100(PyTorch中忽略损失)
  • 用datasets库加载数据集,用map()函数批量处理,自动padding和截断

构建模型:微调比从头训练更实际

推荐用AutoModelForTokenClassification:

  • 加载预训练BERT权重(如bert-base-chinese)
  • 指定num_labels = 实体类别数 + 1(含O)
  • loss自动按token计算,不用手动写CRF层(除非你明确需要序列建模)
  • 若想提升边界识别,可在训练时加入少量规则后处理(如合并连续I-PER)

训练与评估:别只看准确率

用Trainer API训练,但评估要用seqeval(专为NER设计):

  • 指标重点看precision、recall、f1 per label,尤其关注低频实体(如B-PROD)
  • 验证集上f1停滞时,可早停;学习率建议2e-5 ~ 5e-5
  • 推理时用model.predict()拿到logits,再argmax转标签,最后按原始字序列还原

基本上就这些。NER不是黑箱,关键是数据对齐和标签逻辑清晰。模型可以换,流程跑通了,换成RoBERTa、MacBERT甚至Qwen-1.5B也一样套用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6654

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

843

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2205

2024.03.01

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号