0

0

如何为重复出现的单词保留所有行号映射关系

碧海醫心

碧海醫心

发布时间:2026-01-31 09:17:15

|

953人浏览过

|

来源于php中文网

原创

如何为重复出现的单词保留所有行号映射关系

本文讲解如何正确构建单词到行号的多对一映射字典,解决因字典键重复导致旧值被覆盖的问题,使用 `defaultdict(list)` 实现每个单词对应全部出现位置。

在处理带编号的词汇文件(如 1 fire、3 fire)时,若直接用字典推导式 {word: int(num) for num, word in ...},由于字典键(即单词)不可重复,后出现的键值对会无条件覆盖先前同名键的值——例如 fire 最终只保留 3,而丢失 1。这显然违背了“记录单词所有出现位置”的需求。

正确做法是将每个单词映射为行号列表,而非单个数字。推荐使用 collections.defaultdict(list),它能自动为新键初始化空列表,避免手动检查键是否存在:

from collections import defaultdict

word_to_number = defaultdict(list)
with open(file, "r") as f:
    for line in f:
        line = line.strip()
        if not line:  # 跳过空行
            continue
        parts = line.split()
        if len(parts) < 2:
            continue  # 跳过格式异常行
        num_str, word = parts[0], " ".join(parts[1:])  # 兼容单词含空格(如 "north wind")
        word_to_number[word].append(int(num_str))

优势说明:

HaiSnap
HaiSnap

一站式AI应用开发和部署工具

下载
  • defaultdict(list) 确保 word_to_number["fire"] 返回 [1, 3],完整保留所有位置;
  • 支持反向查询:for num in word_to_number["fire"]: print(num) 输出 1 和 3;
  • 若需快速获取首次/末次出现位置,可进一步封装:first_occurrence = word_to_number["fire"][0] 或 last_occurrence = word_to_number["fire"][-1]。

⚠️ 注意事项:

  • 原始推导式本质是“键优先”结构,天然不支持一对多;强行改写(如用 itertools.groupby)反而降低可读性;
  • 若后续需频繁按行号查单词(如 get_word_at_line(4)),应额外构建正向字典 number_to_word = {1:"fire", 2:"water", ...};
  • 文件解析时务必做基础校验(空行、字段数),避免 ValueError。

总结:当数据存在“一词多址”语义时,拒绝用普通字典覆盖式赋值;拥抱 defaultdict(list) 或手动初始化 dict.setdefault(key, []).append(value),这是构建多值映射的Python标准实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.09.27

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

483

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

545

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

113

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

200

2025.08.29

append用法
append用法

append是一个常用的命令行工具,用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容,可以阅读本专题下面的文章。

344

2023.10.25

python中append的用法
python中append的用法

在Python中,append()是列表对象的一个方法,用于向列表末尾添加一个元素。想了解更多append的更多内容,可以阅读本专题下面的文章。

1074

2023.11.14

python中append的含义
python中append的含义

本专题整合了python中append的相关内容,阅读专题下面的文章了解更多详细内容。

176

2025.09.12

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

8

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号