0

0

如何在 Python 中提取层级关系并保留原始分组标识(如 issue 字段)

心靈之曲

心靈之曲

发布时间:2026-02-15 11:13:12

|

719人浏览过

|

来源于php中文网

原创

如何在 Python 中提取层级关系并保留原始分组标识(如 issue 字段)

本文介绍如何使用 NetworkX 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径,并确保每条路径结果准确关联其原始分组字段(如 issue),解决层级展开后丢失业务上下文的问题。

本文介绍如何使用 networkx 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径,并确保每条路径结果准确关联其原始分组字段(如 `issue`),解决层级展开后丢失业务上下文的问题。

在处理组织架构、物料 BOM、权限继承或任务依赖等典型层级数据时,原始表格常包含分组标识(如 issue)和父子关系字段(如 father → son)。直接将整个数据集构建成一张图会混淆不同业务实体间的路径——例如 issue=1 和 issue=2 虽共享 33→34 边,但应视为独立子图。原代码未按 issue 分组建图,导致路径丢失归属信息,最终输出无法区分来源。

正确做法是:先按 issue 分组,对每个子组独立构建有向图,再分别提取根到叶的所有简单路径,最后将路径展开为宽表并保留 issue 列。以下是完整、健壮的实现方案:

✅ 正确实现步骤

import pandas as pd
import networkx as nx
import numpy as np

# 示例输入数据
df = pd.DataFrame({
    "issue": [1, 1, 2],
    "father": [33, 34, 33],
    "son": [34, 35, 34]
})

def extract_hierarchy_per_group(group_df):
    """对单个 issue 组构建有向图并提取所有根→叶路径"""
    # 构建仅含本组边的有向图
    G = nx.from_pandas_edgelist(
        group_df,
        source="father",
        target="son",
        create_using=nx.DiGraph
    )

    # 查找根节点(入度为0)和叶节点(出度为0)
    roots = [v for v, d in G.in_degree() if d == 0]
    leaves = [v for v, d in G.out_degree() if d == 0]

    # 收集所有从根到叶的简单路径
    all_paths = []
    for root in roots:
        for leaf in leaves:
            paths = nx.all_simple_paths(G, root, leaf)
            all_paths.extend(paths)

    # 若无路径(如孤立节点),至少保留单节点路径(可选)
    if not all_paths and len(G.nodes()) == 1:
        node = list(G.nodes())[0]
        all_paths = [[node]]

    # 将每条路径转为字典:Value_Depend_On_ID_0 → value, ...
    result_rows = []
    for path in all_paths:
        row = {f"Value_Depend_On_ID_{i}": val for i, val in enumerate(path)}
        result_rows.append(row)

    return pd.DataFrame(result_rows)

# 按 issue 分组处理,保持 issue 列在结果中
result = (
    df.groupby("issue", group_keys=False)
      .apply(extract_hierarchy_per_group)
      .reset_index(drop=True)
      .assign(issue=df.groupby("issue").ngroup().map(lambda x: sorted(df["issue"].unique())[x]))
      .sort_values("issue")
      .reset_index(drop=True)
)

# 确保整数列支持 NaN:使用 Int64(nullable integer dtype)
hierarchy_cols = [col for col in result.columns if col.startswith("Value_Depend_On_ID_")]
result[hierarchy_cols] = result[hierarchy_cols].astype("Int64")

print(result)

输出结果: | issue | Value_Depend_On_ID_0 | Value_Depend_On_ID_1 | Value_Depend_On_ID_2 | |-------|----------------------|----------------------|----------------------| | 1 | 33 | 34 | 35 | | 2 | 33 | 34 | |

✅ 注意: 表示缺失值(对应 pd.NA),由 Int64 类型自动支持;若需显示为 null 或 None,可在 .to_dict() 或导出前用 .replace({pd.NA: None}) 转换。

DeepL
DeepL

DeepL是一款强大的在线AI翻译工具,可以翻译31种不同语言的文本,并可以处理PDF、Word、PowerPoint等文档文件

下载

⚠️ 关键注意事项

  • 勿全局建图:nx.from_pandas_edgelist(df, ...) 会混合所有 issue 的边,破坏逻辑隔离。
  • 空路径处理:当某 issue 组仅有孤立节点(无父子边)时,all_simple_paths 返回空列表,建议补充兜底逻辑(如添加 [node] 单点路径)。
  • 性能提醒:nx.all_simple_paths 在深层/稠密图中可能指数级增长;生产环境建议限制 cutoff 参数(如 cutoff=5)或改用拓扑排序 + 动态规划。
  • 数据类型统一:father/son 列应为一致数值或字符串类型,避免隐式转换错误;建议预处理:df[["father","son"]] = df[["father","son"]].astype(str)。

✅ 总结

提取层级路径并保留原始分组标识的核心在于「分而治之」:以业务维度(如 issue)为单位构建子图、计算路径、合并结果。该模式可无缝扩展至多级嵌套(如 level_0 → level_1 → level_2 → ...)、带权重路径分析或可视化渲染(nx.draw(G, with_labels=True))。只要坚持“组内建图、组内遍历、组外聚合”三原则,即可稳健支撑各类依赖关系挖掘场景。

立即学习Python免费学习笔记(深入)”;

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

74

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

4

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

311

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

27

2026.02.12

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

244

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

726

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

551

2023.08.03

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号