将包含层级标识的混合列数据结构化为带分组编码的宽表格式

碧海醫心

发布时间：2026-02-10 19:19:43

942人浏览过

来源于php中文网

原创

将包含层级标识的混合列数据结构化为带分组编码的宽表格式

本文介绍如何从含嵌套逻辑的原始数据中提取隐式分组码（如行标题数字），并将其广播至后续明细行，最终生成结构清晰的二维表格，适用于医疗报表、财务明细等具有“汇总-明细”层级关系的数据清洗场景。

在实际数据分析中，我们常遇到一类“伪结构化”数据：原始表格虽为扁平格式，但语义上存在隐式的层级关系——某些行作为分组标题（如纯数字编号），其后若干行属于该组下的明细记录（如带 .xls 后缀的医院标识）。这类数据无法直接使用 pivot_table 处理，因为目标并非数值聚合，而是逻辑分组识别 + 标签广播。

核心思路是：

识别分组锚点：利用正则匹配纯数字行（如 "4"、"5"），作为每个明细区块的“Code”；
前向填充分组码：对匹配结果执行 ffill()，使每个明细行继承最近上方的分组码；
过滤无效行：剔除所有分组锚点行本身（即保留仅含 .xls 的明细行），保留结构化结果。

以下为完整实现代码（基于 pandas）：

import pandas as pd

# 示例原始数据
df = pd.DataFrame({
    "Row tags": [
        "4",
        "100101 - Hospital A.xls",
        "100195 - Hospital B.xls",
        "100105 - Hospital C.xls",
        "5",
        "100101 - Hospital A.xls",
        "100195 - Hospital B.xls"
    ],
    "Values": [100, 30, 30, 40, 50, 25, 25]
})

# 步骤1：提取纯数字行 → 生成布尔掩码对应的分组码列
nums = df["Row tags"].str.extract(r"^(\d+)$")  # 匹配行首到行尾的纯数字
df["Code"] = nums.ffill()  # 前向填充，使明细行获得对应分组码

# 步骤2：仅保留明细行（即原"Row tags"列不匹配纯数字的行）
mask = nums.isna().values  # True 表示该行不是纯数字（即为明细行）
result = df[mask].reset_index(drop=True)[["Code", "Row tags", "Values"]]
result.columns = ["Code", "Hospital", "Values"]  # 重命名列以匹配期望输出

print(result)

输出结果：

美图AI开放平台

美图推出的AI人脸图像处理平台

下载

  Code                  Hospital  Values
0    4   100101 - Hospital A.xls      30
1    4   100195 - Hospital B.xls      30
2    4   100105 - Hospital C.xls      40
3    5   100101 - Hospital A.xls      25
4    5   100195 - Hospital B.xls      25

✅ 关键注意事项：

正则 r"^(\d+)$" 严格匹配整行纯数字，避免误匹配 100101 这类长数字；若需支持带空格的数字（如 " 4 "），可改用 r"^\s*(\d+)\s*$"；
ffill() 依赖原始行序，务必确保数据顺序不可打乱（如避免未指定 sort=False 的 groupby 或随机采样）；
若存在开头无分组码的明细行，ffill() 将产生 NaN，建议增加校验：result = result.dropna(subset=["Code"])；
本方法时间复杂度为 O(n)，远优于循环或 apply，适合万级以内数据；超大规模时可结合 numba 加速正则提取。

该方案跳过冗余的中间布尔列与手动循环，以向量化操作直击本质——将隐式层级显式编码，是处理同类“标题-明细”混合数据的简洁范式。

Python中while循环多条件逻辑的正确写法

如何使用 Python 在 Excel 保持打开状态下清空并重写指定列数据

如何优雅地实现类方法的单次执行与结果缓存

如何在面向类的 Tkinter 应用中安全传递和验证登录参数

如何在面向类的 Tkinter 应用中正确传递和使用用户输入变量

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

399

2023.09.04

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

540

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06