0

0

如何为重复出现的单词保留所有行号映射关系

碧海醫心

碧海醫心

发布时间:2026-01-31 09:17:15

|

953人浏览过

|

来源于php中文网

原创

如何为重复出现的单词保留所有行号映射关系

本文讲解如何正确构建单词到行号的多对一映射字典,解决因字典键重复导致旧值被覆盖的问题,使用 `defaultdict(list)` 实现每个单词对应全部出现位置。

在处理带编号的词汇文件(如 1 fire、3 fire)时,若直接用字典推导式 {word: int(num) for num, word in ...},由于字典键(即单词)不可重复,后出现的键值对会无条件覆盖先前同名键的值——例如 fire 最终只保留 3,而丢失 1。这显然违背了“记录单词所有出现位置”的需求。

正确做法是将每个单词映射为行号列表,而非单个数字。推荐使用 collections.defaultdict(list),它能自动为新键初始化空列表,避免手动检查键是否存在:

from collections import defaultdict

word_to_number = defaultdict(list)
with open(file, "r") as f:
    for line in f:
        line = line.strip()
        if not line:  # 跳过空行
            continue
        parts = line.split()
        if len(parts) < 2:
            continue  # 跳过格式异常行
        num_str, word = parts[0], " ".join(parts[1:])  # 兼容单词含空格(如 "north wind")
        word_to_number[word].append(int(num_str))

优势说明:

琅琅配音
琅琅配音

全能AI配音神器

下载
  • defaultdict(list) 确保 word_to_number["fire"] 返回 [1, 3],完整保留所有位置;
  • 支持反向查询:for num in word_to_number["fire"]: print(num) 输出 1 和 3;
  • 若需快速获取首次/末次出现位置,可进一步封装:first_occurrence = word_to_number["fire"][0] 或 last_occurrence = word_to_number["fire"][-1]。

⚠️ 注意事项:

  • 原始推导式本质是“键优先”结构,天然不支持一对多;强行改写(如用 itertools.groupby)反而降低可读性;
  • 若后续需频繁按行号查单词(如 get_word_at_line(4)),应额外构建正向字典 number_to_word = {1:"fire", 2:"water", ...};
  • 文件解析时务必做基础校验(空行、字段数),避免 ValueError。

总结:当数据存在“一词多址”语义时,拒绝用普通字典覆盖式赋值;拥抱 defaultdict(list) 或手动初始化 dict.setdefault(key, []).append(value),这是构建多值映射的Python标准实践。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

19

2026.02.03

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1091

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

355

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

235

2025.08.29

append用法
append用法

append是一个常用的命令行工具,用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容,可以阅读本专题下面的文章。

349

2023.10.25

python中append的用法
python中append的用法

在Python中,append()是列表对象的一个方法,用于向列表末尾添加一个元素。想了解更多append的更多内容,可以阅读本专题下面的文章。

1080

2023.11.14

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

7

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号