0

0

Python:基于字典映射高效统计列表中元素的出现次数

碧海醫心

碧海醫心

发布时间:2025-12-07 15:26:02

|

565人浏览过

|

来源于php中文网

原创

Python:基于字典映射高效统计列表中元素的出现次数

本文介绍如何在python中根据字典的键值列表,统计一个主列表中相关元素的总出现次数。我们将探讨一种高效的o(n)解决方案,通过预处理主列表构建一个中间计数字典,避免了传统嵌套循环导致的o(n^3)低效问题。教程将提供详细的vanilla python实现代码,并深入分析不同方法的时间复杂度,帮助读者理解和优化数据处理性能。

在数据处理和分析中,我们经常会遇到需要根据某种映射关系对数据进行聚合或统计的情况。一个典型的场景是,给定一个字典,其键对应一个值列表,我们希望统计另一个主列表中,与字典中每个键关联的值列表里的元素出现的总次数。

问题描述与示例

假设我们有一个字典 my_dict,其结构为键映射到一个包含多个元素的列表。同时,我们有一个 my_list,其中包含一系列待统计的元素。我们的目标是创建一个新的字典 new_dict,其中每个键与 my_dict 中的键相同,而其值则是 my_dict 中该键所对应列表中的所有元素在 my_list 中出现的总次数。

输入示例:

my_dict = {'A': ['A', 'B'], 'B': ['C', 'D'], 'C': ['E', 'F']}
my_list = ['A', 'D', 'A', 'C', 'F', 'F']

期望输出:

立即学习Python免费学习笔记(深入)”;

{'A': 2, 'B': 2, 'C': 2}

输出解释:

  • 对于键 'A':my_dict['A'] 是 ['A', 'B']。在 my_list 中,'A' 出现了 2 次,'B' 出现了 0 次。因此,'A' 的总计数为 2。
  • 对于键 'B':my_dict['B'] 是 ['C', 'D']。在 my_list 中,'C' 出现了 1 次,'D' 出现了 1 次。因此,'B' 的总计数为 1 + 1 = 2。
  • 对于键 'C':my_dict['C'] 是 ['E', 'F']。在 my_list 中,'E' 出现了 0 次,'F' 出现了 2 次。因此,'C' 的总计数为 0 + 2 = 2。

传统低效方法及其性能分析

初学者可能会倾向于使用多层嵌套循环来解决这个问题。例如,对于 my_dict 中的每个键,遍历其关联的值列表,然后对 my_list 进行遍历以查找并计数。

# 示意性的低效实现(不推荐)
def count_nested_values_inefficient(my_dict: dict, my_list: list):
    new_dict = {}
    for key, values_in_dict in my_dict.items(): # 外层循环:my_dict 的键
        current_count = 0
        for target_val in values_in_dict: # 中间循环:my_dict 键对应的值列表
            # 在 my_list 中查找 target_val 的出现次数
            for list_item in my_list: # 内层循环:my_list
                if list_item == target_val:
                    current_count += 1
        new_dict[key] = current_count
    return new_dict

这种方法的性能表现非常差。具体来说,它会导致 O(n³) 的时间复杂度,其中:

炉米Lumi
炉米Lumi

字节跳动推出的AI模型分享社区和模型训练平台

下载
  1. 最外层循环:my_dict 中的键数量。
  2. 中间循环:my_dict 中每个键对应的值列表的长度。
  3. 最内层循环:my_list 的长度。

更糟糕的是,如果使用 target_val in my_list 来检查元素是否存在并计数,Python 中列表的 in 操作符在最坏情况下是 O(n) 的时间复杂度(需要遍历整个列表)。这意味着每次查找都会重新遍历 my_list。在我们的示例中,my_dict 有 3 个键,my_list 有 6 个元素,my_dict 中最长的值列表有 2 个元素。因此,总迭代次数大约为 3 * 2 * 6 = 36 次,这在小型数据集上可能不明显,但对于大型数据集,性能会急剧下降。

高效解决方案:预处理与字典优化

为了避免重复遍历 my_list 并利用字典 O(1) 的查找效率,我们可以采用一种两阶段的方法:

  1. 预处理 my_list: 首先,遍历 my_list,统计其中每个元素的出现次数,并将结果存储在一个临时的字典 counts 中。
  2. 构建 new_dict: 接着,遍历 my_dict。对于 my_dict 中的每个键及其关联的值列表,遍历该值列表中的每个元素。通过在第一步构建的 counts 字典中查找这些元素的计数,并累加到 new_dict 对应键的总计数中。

这种方法将大大提高效率,将整体时间复杂度降低到 O(n)。

代码实现

def count_nested_values(my_dict: dict, my_list: list) -> dict:
    """
    根据字典映射高效统计列表中元素的出现次数。

    参数:
        my_dict (dict): 键映射到值列表的字典。
        my_list (list): 待统计元素的主列表。

    返回:
        dict: 新的字典,键与 my_dict 相同,值为 my_dict 键对应值列表中元素在 my_list 中出现的总次数。
    """

    # 阶段1: 预处理 my_list,统计每个元素的出现次数
    # 构建一个中间字典 counts,键为 my_list 中的元素,值为其出现次数。
    counts = {}
    for list_val in my_list:
        counts[list_val] = counts.get(list_val, 0) + 1
    # 此阶段的时间复杂度为 O(len(my_list)),因为字典的插入和查找操作平均为 O(1)。

    # 阶段2: 遍历 my_dict,根据预处理结果计算最终计数
    new_dict = {}
    for k, dict_val_list in my_dict.items():
        # 初始化当前键的总计数
        new_dict[k] = 0

        # 遍历 my_dict 中当前键对应的值列表
        for target_val in dict_val_list:
            # 从 counts 字典中查找 target_val 的出现次数
            # 使用 .get() 方法避免 KeyError,如果元素不存在则返回 0
            new_dict[k] += counts.get(target_val, 0)
    # 此阶段的时间复杂度为 O(len(my_dict) + sum(len(v) for v in my_dict.values()))
    # 因为字典的查找操作平均为 O(1)。

    return new_dict

# 示例调用
my_dict = {'A': ['A', 'B'], 'B': ['C', 'D'], 'C': ['E', 'F']}
my_list = ['A', 'D', 'A', 'C', 'F', 'F']

result_dict = count_nested_values(my_dict, my_list)
print(result_dict)

输出:

{'A': 2, 'B': 2, 'C': 2}

性能分析

  • 阶段1 (预处理 my_list): 遍历 my_list 一次,对每个元素进行字典查找和更新操作。由于字典的平均查找和插入时间复杂度为 O(1),因此此阶段的总时间复杂度为 O(M),其中 M 是 my_list 的长度。
  • 阶段2 (构建 new_dict): 遍历 my_dict 的键值对一次,然后对每个值列表(假设总共有 N 个嵌套值)中的元素进行字典查找和累加。此阶段的总时间复杂度为 O(K + N),其中 K 是 my_dict 的键数量,N 是 my_dict 中所有值列表的元素总数。

因此,整个算法的综合时间复杂度为 O(M + K + N),可以简化为 O(n),其中 n 是所有相关输入数据(my_list 的长度以及 my_dict 的键数量和所有嵌套值的总数)的总规模。这与 O(n³) 的低效方法相比,是一个巨大的性能提升。

注意事项与总结

  • 空间换时间: 这种高效方法通过引入一个中间字典 counts 来存储 my_list 中元素的计数,从而牺牲了一定的内存空间。然而,这种内存开销通常是可接受的,因为它带来了显著的时间性能提升,尤其是在处理大型数据集时。
  • 适用场景: 如果你的输入数据量较小,例如 my_list 和 my_dict 的规模都不会超过几十个元素,那么即使是 O(n³) 的方法也可能在毫秒级别完成,性能差异不明显。但对于生产环境或处理大规模数据时,采用 O(n) 的优化方案是至关重要的。
  • Python 标准库 collections.Counter: 如果允许使用 Python 标准库,collections.Counter 提供了更简洁的方式来完成第一阶段的预处理:counts = collections.Counter(my_list)。其底层实现也类似地利用了哈希表(字典)的原理,提供了高效的计数功能。本教程提供的 Vanilla Python 实现展示了 Counter 在底层所做的工作。

通过理解并应用这种预处理和字典优化的策略,我们不仅能够解决特定的计数问题,还能深入理解算法的时间复杂度,从而在日常编程中写出更高效、更具扩展性的代码。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

760

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 4.7万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号