不使用优先队列构建霍夫曼树的实用算法详解

DDD

发布时间：2025-10-05 09:51:34

436人浏览过

来源于php中文网

原创

不使用优先队列构建霍夫曼树的实用算法详解

本文详细介绍了如何在不使用优先队列的情况下构建霍夫曼树的实用算法。通过巧妙地利用两个预先排序的列表，一个用于原始符号，一个用于合并后的节点，我们能够高效地选择最小频率的节点进行合并，从而逐步构建出完整的霍夫曼树，避免了传统优先队列的显式实现，提供了一种简洁而有效的替代方案。

霍夫曼树及其构建挑战

霍夫曼树（huffman tree），又称最优二叉树，是一种带权路径长度最短的二叉树。它在数据压缩等领域有着广泛应用，其核心思想是为出现频率高的字符分配较短的编码，为出现频率低的字符分配较长的编码，从而实现整体编码长度的最小化。

构建霍夫曼树的传统方法通常依赖于优先队列（最小堆）。在构建过程中，我们需要反复从所有当前可用节点中选出频率最小的两个节点进行合并。优先队列能够高效地（O(logN)时间复杂度）完成这一“取出最小元素”的操作。然而，在某些特定场景或教学要求下，可能不允许使用优先队列。这就引出了一个挑战：如何在没有优先队列的情况下，依然高效地找到并合并最小频率的节点？

无优先队列的霍夫曼树构建算法

针对不使用优先队列的需求，存在一种巧妙的替代方法。该方法的核心在于维护两个已排序的列表，并通过比较这两个列表的头部元素来高效地找到全局最小的两个节点。

算法步骤

初始化节点列表：
- 为每个待编码的符号（字符）创建一个叶子节点，节点中包含符号本身及其对应的频率（或概率）。
- 将所有这些叶子节点放入一个列表中。
初始排序：
- 将上述节点列表按照节点的频率进行升序排序。这个列表将作为我们的第一个工作列表（list_symbols）。
创建合并节点列表：

唱鸭
音乐创作全流程的AI自动作曲工具，集 AI 辅助作词、AI 自动作曲、编曲、混音于一体

下载
- 创建一个空的列表，用于存放合并后的内部节点（list_combined）。这个列表也将始终保持升序。
迭代合并：
- 当两个列表（list_symbols 和 list_combined）中节点的总数大于1时，重复以下操作：
  - 选择最小的两个节点： 从 list_symbols 和 list_combined 这两个列表的头部（即最小元素）中，选择频率最小的两个节点。
    - 比较 list_symbols 的第一个元素和 list_combined 的第一个元素，找出其中较小的一个。
    - 将选出的节点从其所属列表中移除。
    - 重复此过程，选出第二个最小的节点。
  - 创建新父节点： 将这两个选出的节点合并，创建一个新的父节点。新父节点的频率是其两个子节点频率之和，其左子节点和右子节点分别为这两个被合并的节点。
  - 添加新父节点： 将新创建的父节点添加到 list_combined 列表的末尾。
    - 关键洞察： 由于新合并节点的频率总是大于或等于其子节点的频率，并且所有先前合并的节点都由频率更小的原始节点或更早合并的节点构成，因此新合并节点的频率将总是大于或等于 list_combined 中所有现有节点的频率。这意味着 list_combined 列表在添加新节点后，仍然保持升序状态，无需重新排序。
完成： 当循环结束时，两个列表中将只剩下一个节点，这个节点就是构建完成的霍夫曼树的根节点。

示例代码 (Python)

为了更好地理解上述算法，我们提供一个Python示例。

import collections

# 定义霍夫曼树的节点
class HuffmanNode:
    def __init__(self, char, freq, left=None, right=None):
        self.char = char  # 字符 (对于内部节点为None)
        self.freq = freq  # 频率
        self.left = left  # 左子节点
        self.right = right # 右子节点

    # 用于比较节点，以便排序
    def __lt__(self, other):
        return self.freq < other.freq

    def __repr__(self):
        return f"Node(char='{self.char}', freq={self.freq})"

def build_huffman_tree_without_priority_queue(text):
    """
    不使用优先队列构建霍夫曼树。
    """
    if not text:
        return None

    # 1. 计算字符频率
    frequency = collections.Counter(text)

    # 2. 初始化叶子节点列表并排序
    # list_symbols 存储原始字符节点，按频率升序排列
    list_symbols = sorted([HuffmanNode(char, freq) for char, freq in frequency.items()])

    # 3. 创建空的合并节点列表
    # list_combined 存储合并后的内部节点，也保持按频率升序排列
    list_combined = []

    # 辅助函数：从两个列表中选择频率最小的节点并移除
    def get_min_node():
        node1 = list_symbols[0] if list_symbols else None
        node2 = list_combined[0] if list_combined else None

        if node1 and (not node2 or node1.freq < node2.freq):
            return list_symbols.pop(0)
        elif node2 and (not node1 or node2.freq <= node1.freq):
            return list_combined.pop(0)
        else:
            return None # 理论上不会发生，除非两个列表都为空

    # 4. 迭代合并，直到只剩一个根节点
    while len(list_symbols) + len(list_combined) > 1:
        # 选择频率最小的两个节点
        node1 = get_min_node()
        node2 = get_min_node()

        if not node1 or not node2: # 异常情况处理
            break

        # 创建新的父节点
        merged_freq = node1.freq + node2.freq
        parent_node = HuffmanNode(None, merged_freq, node1, node2)

        # 将新父节点添加到 list_combined 的末尾
        # 由于其频率总是大于或等于 list_combined 中现有节点，
        # list_combined 依然保持升序
        list_combined.append(parent_node)

    # 最终剩下的节点就是霍夫曼树的根
    if list_symbols:
        return list_symbols[0]
    elif list_combined:
        return list_combined[0]
    else:
        return None # 空文本情况

# 辅助函数：生成霍夫曼编码
def generate_huffman_codes(root, current_code="", codes={}):
    if root is None:
        return

    if root.char is not None: # 叶子节点
        codes[root.char] = current_code
        return

    generate_huffman_codes(root.left, current_code + "0", codes)
    generate_huffman_codes(root.right, current_code + "1", codes)
    return codes

# 测试
if __name__ == "__main__":
    test_text = "this is an example of a huffman tree"
    print(f"原始文本: {test_text}")

    huffman_root = build_huffman_tree_without_priority_queue(test_text)

    if huffman_root:
        huffman_codes = generate_huffman_codes(huffman_root)
        print("\n霍夫曼编码:")
        for char, code in sorted(huffman_codes.items()):
            print(f"'{char}': {code}")
    else:
        print("无法构建霍夫曼树，文本为空。")

    # 另一个例子
    test_text_2 = "aaaaabbbbcccdde"
    print(f"\n原始文本: {test_text_2}")
    huffman_root_2 = build_huffman_tree_without_priority_queue(test_text_2)
    if huffman_root_2:
        huffman_codes_2 = generate_huffman_codes(huffman_root_2)
        print("\n霍夫曼编码:")
        for char, code in sorted(huffman_codes_2.items()):
            print(f"'{char}': {code}")

注意事项与总结

初始排序的重要性： 算法的效率高度依赖于 list_symbols 的初始排序。这一步的时间复杂度为 O(N log N)，其中 N 是不同字符的数量。
list_combined 的维护： 将新合并的节点直接添加到 list_combined 的末尾，并能保持其排序特性，是这个算法的精妙之处。它避免了在每次合并后对整个列表进行重新排序的开销。
时间复杂度： 初始排序 O(N log N)。在主循环中，每次选择两个最小节点的操作是 O(1)（因为是从列表头部取出），合并操作也是 O(1)。循环执行 N-1 次。因此，总的时间复杂度主要由初始排序决定，为 O(N log N)，与使用优先队列的经典方法在渐进意义上是相同的。
空间复杂度： 需要额外存储两个列表，空间复杂度为 O(N)。
适用场景： 这种方法在教学或特定限制下非常有用，因为它展示了如何在不依赖高级数据结构的情况下，通过巧妙的列表管理来解决问题。在实际工程中，如果标准库提供了高效的优先队列实现，直接使用它可能更为简洁和不易出错。

通过上述方法，我们成功地在不使用优先队列的情况下构建了霍夫曼树，展示了算法设计中的灵活性和创造性。这种两列表管理策略是解决这类问题的有效替代方案。

正则表达式删除重复标题_用正则表达式去除重复标题行

如何在Java应用中嵌入并运行Python3脚本（无需系统预装Python）

如何使用正则表达式精准删除文件_用正则批量删除匹配文件名

正则表达式适用于哪些语言_支持正则表达式的编程语言列表

如何用栈求解逆波兰表达式（RPN）的最终值

相关专题

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

537

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

395

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

407

2023.08.14

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27