如何在 Python 中提取层级关系并保留原始分组标识（如 issue 字段）

心靈之曲

发布时间：2026-02-15 11:13:12

719人浏览过

来源于php中文网

原创

如何在 Python 中提取层级关系并保留原始分组标识（如 issue 字段）

本文介绍如何使用 NetworkX 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径，并确保每条路径结果准确关联其原始分组字段（如 issue），解决层级展开后丢失业务上下文的问题。

本文介绍如何使用 networkx 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径，并确保每条路径结果准确关联其原始分组字段（如 `issue`），解决层级展开后丢失业务上下文的问题。

在处理组织架构、物料 BOM、权限继承或任务依赖等典型层级数据时，原始表格常包含分组标识（如 issue）和父子关系字段（如 father → son）。直接将整个数据集构建成一张图会混淆不同业务实体间的路径——例如 issue=1 和 issue=2 虽共享 33→34 边，但应视为独立子图。原代码未按 issue 分组建图，导致路径丢失归属信息，最终输出无法区分来源。

正确做法是：先按 issue 分组，对每个子组独立构建有向图，再分别提取根到叶的所有简单路径，最后将路径展开为宽表并保留 issue 列。以下是完整、健壮的实现方案：

✅ 正确实现步骤

import pandas as pd
import networkx as nx
import numpy as np

# 示例输入数据
df = pd.DataFrame({
    "issue": [1, 1, 2],
    "father": [33, 34, 33],
    "son": [34, 35, 34]
})

def extract_hierarchy_per_group(group_df):
    """对单个 issue 组构建有向图并提取所有根→叶路径"""
    # 构建仅含本组边的有向图
    G = nx.from_pandas_edgelist(
        group_df,
        source="father",
        target="son",
        create_using=nx.DiGraph
    )

    # 查找根节点（入度为0）和叶节点（出度为0）
    roots = [v for v, d in G.in_degree() if d == 0]
    leaves = [v for v, d in G.out_degree() if d == 0]

    # 收集所有从根到叶的简单路径
    all_paths = []
    for root in roots:
        for leaf in leaves:
            paths = nx.all_simple_paths(G, root, leaf)
            all_paths.extend(paths)

    # 若无路径（如孤立节点），至少保留单节点路径（可选）
    if not all_paths and len(G.nodes()) == 1:
        node = list(G.nodes())[0]
        all_paths = [[node]]

    # 将每条路径转为字典：Value_Depend_On_ID_0 → value, ...
    result_rows = []
    for path in all_paths:
        row = {f"Value_Depend_On_ID_{i}": val for i, val in enumerate(path)}
        result_rows.append(row)

    return pd.DataFrame(result_rows)

# 按 issue 分组处理，保持 issue 列在结果中
result = (
    df.groupby("issue", group_keys=False)
      .apply(extract_hierarchy_per_group)
      .reset_index(drop=True)
      .assign(issue=df.groupby("issue").ngroup().map(lambda x: sorted(df["issue"].unique())[x]))
      .sort_values("issue")
      .reset_index(drop=True)
)

# 确保整数列支持 NaN：使用 Int64（nullable integer dtype）
hierarchy_cols = [col for col in result.columns if col.startswith("Value_Depend_On_ID_")]
result[hierarchy_cols] = result[hierarchy_cols].astype("Int64")

print(result)

输出结果： | issue | Value_Depend_On_ID_0 | Value_Depend_On_ID_1 | Value_Depend_On_ID_2 | |-------|----------------------|----------------------|----------------------| | 1 | 33 | 34 | 35 | | 2 | 33 | 34 | |

✅ 注意：表示缺失值（对应 pd.NA），由 Int64 类型自动支持；若需显示为 null 或 None，可在 .to_dict() 或导出前用 .replace({pd.NA: None}) 转换。

DeepL
DeepL是一款强大的在线AI翻译工具，可以翻译31种不同语言的文本，并可以处理PDF、Word、PowerPoint等文档文件

下载

⚠️ 关键注意事项

勿全局建图：nx.from_pandas_edgelist(df, ...) 会混合所有 issue 的边，破坏逻辑隔离。
空路径处理：当某 issue 组仅有孤立节点（无父子边）时，all_simple_paths 返回空列表，建议补充兜底逻辑（如添加 [node] 单点路径）。
性能提醒：nx.all_simple_paths 在深层/稠密图中可能指数级增长；生产环境建议限制 cutoff 参数（如 cutoff=5）或改用拓扑排序 + 动态规划。
数据类型统一：father/son 列应为一致数值或字符串类型，避免隐式转换错误；建议预处理：df[["father","son"]] = df[["father","son"]].astype(str)。

✅ 总结

提取层级路径并保留原始分组标识的核心在于「分而治之」：以业务维度（如 issue）为单位构建子图、计算路径、合并结果。该模式可无缝扩展至多级嵌套（如 level_0 → level_1 → level_2 → ...）、带权重路径分析或可视化渲染（nx.draw(G, with_labels=True)）。只要坚持“组内建图、组内遍历、组外聚合”三原则，即可稳健支撑各类依赖关系挖掘场景。

立即学习“Python免费学习笔记（深入）”；

Python 多线程与 asyncio 协作实践

Python 大数据作业的资源隔离

Python 路径遍历漏洞的防护思路

Python 上下文变量 contextvars 的使用场景

如何为 Python 日志器的不同输出目标（控制台与文件）设置独立的调试级别