讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何让 Stanza 词形还原器仅返回词元而不是字典？

霞舞

发布时间：2025-09-23 16:08:58

|

831人浏览过

|

来源于php中文网

原创

如何让 stanza 词形还原器仅返回词元而不是字典？

本文介绍了如何在使用 Stanza 进行词形还原时，从其输出的嵌套字典结构中提取出纯粹的词元（lemma）。通过示例代码演示了如何遍历 Stanza 处理后的文档对象，并使用列表推导式高效地提取每个词的词元，避免了不必要的字典处理开销，从而简化了后续的文本分析流程。

在使用 Stanza 进行自然语言处理时，词形还原 (lemmatization) 是一个常见的任务。Stanza 能够很好地处理多种语言的词形还原，但其默认输出格式是包含多个属性（如 ID、文本、词性标注、词元等）的字典结构，这在某些情况下显得过于冗余。如果只需要词元本身，直接处理整个字典会增加不必要的计算开销。本文将介绍如何从 Stanza 的输出中提取纯粹的词元，避免处理额外的字典信息。

Stanza 的 Pipeline 处理文档后，会生成一个嵌套的结构。文档被分割成句子，每个句子又是一个 token 列表，而每个 token 包含一个或多个 word 对象，每个 word 对象就是一个包含各种属性的字典，其中包括我们需要的词元 (lemma)。

以下代码演示了如何使用 Stanza 进行词形还原，并提取出纯粹的词元列表：

import stanza

# 下载西班牙语模型（如果尚未下载）
stanza.download('es', package='ancora', processors='tokenize,mwt,pos,lemma', verbose=False)

# 创建 Stanza Pipeline
stNLP = stanza.Pipeline(processors='tokenize,mwt,pos,lemma', lang='es', use_gpu=False) #use_gpu根据实际情况设置

# 处理文本
doc = stNLP('me hubiera gustado mas “sincronia” con la primaria')

# 提取词元
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]

# 打印词元列表
print(lemmas)

代码解释：

课游记AI

课游记AI

AI原生学习产品

下载

stanza.download(...): 下载西班牙语模型。processors='tokenize,mwt,pos,lemma' 指定了要使用的处理模块，包括分词 (tokenize)、多词单元 (mwt)、词性标注 (pos) 和词形还原 (lemma)。
stanza.Pipeline(...): 创建一个 Stanza Pipeline 对象，用于处理文本。lang='es' 指定了语言为西班牙语。use_gpu=True 可以利用 GPU 加速处理，如果你的机器支持 CUDA，可以设置为 True，否则设置为 False。
doc = stNLP(...): 使用 Pipeline 处理文本，返回一个 Document 对象。
lemmas = [word.lemma for t in doc.iter_tokens() for word in t.words]: 这是一个列表推导式，用于提取词元。
- doc.iter_tokens(): 迭代文档中的每个 token。
- for word in t.words: 迭代 token 中的每个 word 对象（一个 token 可能包含多个 word 对象，例如多词单元）。
- word.lemma: 访问 word 对象的 lemma 属性，即词元。

注意事项：

确保已安装 Stanza 库。可以使用 pip install stanza 进行安装。
use_gpu 参数应该根据你的硬件环境进行设置。如果你的机器没有 GPU 或者 CUDA 不可用，请设置为 False，否则可能会出现错误。
代码中 stanza.download() 只会下载一次模型，之后会从本地加载。
stanza.Pipeline 的 processors 参数指定了要运行的处理模块。根据你的需求，可以添加或删除模块。例如，如果不需要词性标注，可以从 processors 中移除 pos。

总结：

通过遍历 Stanza 处理后的文档对象，并使用列表推导式，可以方便地提取出纯粹的词元列表，避免了处理额外的字典信息。这种方法可以提高处理效率，并简化后续的文本分析流程。请注意 Stanza 的版本，不同版本可能在 API 上有所差异。本文示例基于 stanza==1.7.0 版本。

相关文章

Python-docx中设置页面宽度与高度的正确方法

Python-docx 中设置页面宽度与高度的正确方法

Python-docx 中设置页面宽度和高度的正确方法

Python自动化办公教程_ExcelWordPDF批量处理

如何用Python高效提取CSV数据并自动导入Word表格

相关标签:

word 自然语言处理 pip for Token 对象 word

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Selenium Edge WebDriver 自动化：有效禁用弹窗通知的策略下一篇：如何优雅地在 VS Code 中为 Python 项目设置环境变量

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

pip安装使用方法

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

437

2024.12.20

pip设置清华源

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

806

2024.12.23

python升级pip

python升级pip

本专题整合了python升级pip相关教程，阅读下面的文章了解更多详细内容。

371

2025.07.23

登录token无效

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6681

2023.09.14

登录token无效怎么办

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

846

2023.09.14

token怎么获取

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2225

2024.03.01

chatgpt使用指南

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

0

2026.03.16

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新文章

更多

计算 Pandas 分组后各子组中特定类别值的百分比（双列分组场景）

如何正确解析和提取 URL 查询参数

如何将上三角矩阵的非空元素沿对角线方向平移至右下三角区域

计算分组后各子组中特定类别值的百分比（以车辆类型为例）

如何正确解析并提取 URL 查询参数

计算 Pandas 分组后各子组中特定类别值的百分比

计算 Pandas 分组后某分类值（如“truck”）在组内的百分比占比

如何正确解析并提取 URL 中的查询参数

如何避免嵌套字典中因对象引用导致的意外值共享

Python 中嵌套字典赋值时的浅拷贝陷阱与正确初始化方法

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部