Pandas 数据行折叠：将多行动物数据按组聚合为单行

心靈之曲

发布时间：2026-03-18 11:11:11

657人浏览过

来源于php中文网

原创

Pandas 数据行折叠：将多行动物数据按组聚合为单行

本文介绍如何将按组分散的多行动物数值数据（如 dog、cat、owl）高效聚合成每组一行的宽格式 dataframe，避免重复分组和空值问题，并提供可扩展的解析逻辑。

本文介绍如何将按组分散的多行动物数值数据（如 dog、cat、owl）高效聚合成每组一行的宽格式 dataframe，避免重复分组和空值问题，并提供可扩展的解析逻辑。

在实际数据清洗场景中，常需从结构松散的文本（如日志、报表导出）中提取分组数据，并将其规整为标准的宽表（wide format）结构。原始代码的问题在于：每次遇到 dog/cat/owl 行就新建一条记录，导致同一组内多个动物被拆成多行；而理想结果是每个 Group 对应唯一一行，各动物字段填充对应数值，缺失则留空（NaN）。

核心思路是：按组维护一个动态字典（row），逐行解析时仅更新该字典，待组切换或文件结束时才提交为完整行。这比先生成长表再 groupby().agg() 更高效，也更可控——尤其当动物种类不固定、字段需动态扩展时。

以下是优化后的完整实现：

import pandas as pd

data = """
Jan 2024
Group1 02/02/2024
dog 10 20
cat 21 32
Group2 05/02/2024
dog 23 45
cat 45 65
owl 24 12
monthly
Admin 02 22
clean 05 32
"""

extract = []
row = None  # 当前组的暂存字典

for line in data.strip().splitlines():
    line = line.strip()
    if not line:  # 跳过空行
        continue

    # 检测新组开始（以 "Group" 开头）
    if line.startswith("Group"):
        # 提交上一组（若存在）
        if row is not None:
            extract.append(row)
        # 初始化新组字典
        group_name = line.split()[0]  # 取第一个词，如 "Group1"
        row = {"group": group_name}

    # 解析动物行（必须以 dog/cat/owl 开头）
    elif line.startswith(("dog", "cat", "owl")):
        parts = line.split()
        if len(parts) >= 2:  # 确保至少有动物名和数值
            animal, value = parts[0], parts[1]
            row[animal] = value

# 文件结束，提交最后一组
if row is not None:
    extract.append(row)

# 构建 DataFrame 并规范列序
df = pd.DataFrame(extract)
df = df[["group", "dog", "cat", "owl"]]
print(df)

输出结果：

AIPURE

AIPURE帮您轻松找到2024年最佳AI工具

下载

    group dog cat  owl
0  Group1  10  21  NaN
1  Group2  23  45   24

✅ 关键优势说明：

无冗余计算：不依赖 groupby().agg()，避免中间长表构建与索引对齐开销；
强健性提升：通过 startswith() 精准匹配动物名，防止误判（如 "dog" 不会匹配 "dogfood"）；
易扩展：新增动物类型（如 "fox"）只需在 elif 条件中添加分支，无需修改结构逻辑；
空值语义清晰：未出现的动物自动为 NaN，符合 Pandas 默认行为，后续可用 fillna() 或 pd.concat() 统一处理。

⚠️ 注意事项：

若文本中动物行可能包含多余空格或制表符，建议用 line.split()（自动处理多种空白符）而非 line.split(" ")；
若需保留第二列数值（如 dog 10 20 中的 20），可将 value = parts[2]，并调整字典键名为 "dog_val1" / "dog_val2"；
对于超大规模文本，可考虑使用生成器逐块处理，避免内存峰值。

此方法兼顾简洁性、可读性与工程鲁棒性，是处理此类“组内多实体扁平化”任务的推荐实践。

相关标签:

pandas format

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python怎么防爬虫_高频IP限流校验UA与动态Token蜜罐反爬策略下一篇：暂无

作者最新文章

Maven 多模块项目中按 Profile 动态构建子集模块的正确实践

2026-03-15 15:56

河马剧场短剧在线浏览入口在哪

2026-03-15 16:00

Java 控制台输出日文颜文字（Kaomoji）乱码问题的完整解决方案

2026-03-15 16:00