
本文介绍如何使用 NetworkX 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径,并确保每条路径结果准确关联其原始分组字段(如 issue),解决层级展开后丢失业务上下文的问题。
本文介绍如何使用 networkx 与 pandas 对具有父子关系的表格数据构建有向图、遍历所有简单路径,并确保每条路径结果准确关联其原始分组字段(如 `issue`),解决层级展开后丢失业务上下文的问题。
在处理组织架构、物料 BOM、权限继承或任务依赖等典型层级数据时,原始表格常包含分组标识(如 issue)和父子关系字段(如 father → son)。直接将整个数据集构建成一张图会混淆不同业务实体间的路径——例如 issue=1 和 issue=2 虽共享 33→34 边,但应视为独立子图。原代码未按 issue 分组建图,导致路径丢失归属信息,最终输出无法区分来源。
正确做法是:先按 issue 分组,对每个子组独立构建有向图,再分别提取根到叶的所有简单路径,最后将路径展开为宽表并保留 issue 列。以下是完整、健壮的实现方案:
✅ 正确实现步骤
import pandas as pd
import networkx as nx
import numpy as np
# 示例输入数据
df = pd.DataFrame({
"issue": [1, 1, 2],
"father": [33, 34, 33],
"son": [34, 35, 34]
})
def extract_hierarchy_per_group(group_df):
"""对单个 issue 组构建有向图并提取所有根→叶路径"""
# 构建仅含本组边的有向图
G = nx.from_pandas_edgelist(
group_df,
source="father",
target="son",
create_using=nx.DiGraph
)
# 查找根节点(入度为0)和叶节点(出度为0)
roots = [v for v, d in G.in_degree() if d == 0]
leaves = [v for v, d in G.out_degree() if d == 0]
# 收集所有从根到叶的简单路径
all_paths = []
for root in roots:
for leaf in leaves:
paths = nx.all_simple_paths(G, root, leaf)
all_paths.extend(paths)
# 若无路径(如孤立节点),至少保留单节点路径(可选)
if not all_paths and len(G.nodes()) == 1:
node = list(G.nodes())[0]
all_paths = [[node]]
# 将每条路径转为字典:Value_Depend_On_ID_0 → value, ...
result_rows = []
for path in all_paths:
row = {f"Value_Depend_On_ID_{i}": val for i, val in enumerate(path)}
result_rows.append(row)
return pd.DataFrame(result_rows)
# 按 issue 分组处理,保持 issue 列在结果中
result = (
df.groupby("issue", group_keys=False)
.apply(extract_hierarchy_per_group)
.reset_index(drop=True)
.assign(issue=df.groupby("issue").ngroup().map(lambda x: sorted(df["issue"].unique())[x]))
.sort_values("issue")
.reset_index(drop=True)
)
# 确保整数列支持 NaN:使用 Int64(nullable integer dtype)
hierarchy_cols = [col for col in result.columns if col.startswith("Value_Depend_On_ID_")]
result[hierarchy_cols] = result[hierarchy_cols].astype("Int64")
print(result)输出结果:
| issue | Value_Depend_On_ID_0 | Value_Depend_On_ID_1 | Value_Depend_On_ID_2 |
|-------|----------------------|----------------------|----------------------|
| 1 | 33 | 34 | 35 |
| 2 | 33 | 34 |
✅ 注意:
表示缺失值(对应 pd.NA),由 Int64 类型自动支持;若需显示为 null 或 None,可在 .to_dict() 或导出前用 .replace({pd.NA: None}) 转换。
⚠️ 关键注意事项
- 勿全局建图:nx.from_pandas_edgelist(df, ...) 会混合所有 issue 的边,破坏逻辑隔离。
- 空路径处理:当某 issue 组仅有孤立节点(无父子边)时,all_simple_paths 返回空列表,建议补充兜底逻辑(如添加 [node] 单点路径)。
- 性能提醒:nx.all_simple_paths 在深层/稠密图中可能指数级增长;生产环境建议限制 cutoff 参数(如 cutoff=5)或改用拓扑排序 + 动态规划。
- 数据类型统一:father/son 列应为一致数值或字符串类型,避免隐式转换错误;建议预处理:df[["father","son"]] = df[["father","son"]].astype(str)。
✅ 总结
提取层级路径并保留原始分组标识的核心在于「分而治之」:以业务维度(如 issue)为单位构建子图、计算路径、合并结果。该模式可无缝扩展至多级嵌套(如 level_0 → level_1 → level_2 → ...)、带权重路径分析或可视化渲染(nx.draw(G, with_labels=True))。只要坚持“组内建图、组内遍历、组外聚合”三原则,即可稳健支撑各类依赖关系挖掘场景。
立即学习“Python免费学习笔记(深入)”;










