如何将 Pandas DataFrame 中多行分组数据合并为单行

心靈之曲

发布时间：2026-03-18 11:34:21

400人浏览过

来源于php中文网

原创

本文介绍如何将按组分散在多行中的动物数值数据（如 dog、cat、owl）高效聚合成每组一行的宽格式 dataframe，避免原始循环中重复创建空行的问题，并提供健壮、可扩展的解析逻辑。

本文介绍如何将按组分散在多行中的动物数值数据（如 dog、cat、owl）高效聚合成每组一行的宽格式 dataframe，避免原始循环中重复创建空行的问题，并提供健壮、可扩展的解析逻辑。

在处理从非结构化文本（如日志、报表或配置文件）提取的分组数据时，一个常见需求是：将同一逻辑组下的多条记录（如不同动物的指标）合并到 DataFrame 的单一行中。原始代码的问题在于——每次遇到 dog/cat/owl 行就立即 append 一条新记录，导致每个动物独占一行，而非同属一个 group 下的并列字段。

核心思路是：以“组”为单位构建字典，逐行填充字段，待组切换或文件结束时再统一提交整行。这比先生成冗余长表再用 groupby().first() 或 pivot() 后处理更高效、内存更友好，尤其适合流式解析大文件。

以下是优化后的完整实现：

import pandas as pd

data = """
Jan 2024
Group1 02/02/2024
dog 10 20
cat 21 32
Group2 05/02/2024
dog 23 45
cat 45 65
owl 24 12
monthly
Admin 02 22
clean 05 32
"""

extract = []
row = None  # 当前正在构建的组行字典

for line in data.strip().splitlines():
    line = line.strip()
    if not line:  # 跳过空行
        continue

    # 检测新组开始（如 "Group1", "Group2"）
    if line.startswith("Group"):
        # 若已有未提交的 row，先保存它
        if row is not None:
            extract.append(row)
        # 初始化新组：提取组名（取首词），构建空字典
        group_name = line.split()[0]
        row = {"group": group_name}

    # 解析动物行（dog/cat/owl），仅取第一个数值（val1）
    elif line.startswith(("dog", "cat", "owl")):
        parts = line.split()
        if len(parts) >= 2:
            animal, val1, *_ = parts  # 解构：animal + 第一个值 + 其余忽略
            if row is not None:  # 确保已在某个组内
                row[animal] = val1

# 文件结束，提交最后一个组
if row is not None:
    extract.append(row)

# 构建 DataFrame，并固定列序（缺失动物自动填充 NaN）
df = pd.DataFrame(extract)[["group", "dog", "cat", "owl"]]
print(df)

输出结果：

AIPURE

AIPURE帮您轻松找到2024年最佳AI工具

下载

    group dog cat  owl
0  Group1  10  21  NaN
1  Group2  23  45   24

✅ 关键改进点说明：

状态驱动设计：用 row 字典缓存当前组所有字段，避免“见一行、生一行”的错误模式；
健壮性增强：增加 strip()、空行跳过、len(parts) >= 2 安全检查，防止因格式异常导致崩溃；
可扩展性强：新增动物（如 fox）只需在 elif 条件中补充前缀，无需修改结构逻辑；
内存友好：不生成中间长表，直接产出目标宽表，适合处理千行级以上文本。

⚠️ 注意事项：

若某组缺少某个动物（如 Group1 无 owl），对应列将为 NaN —— 这是 Pandas 宽格式的自然行为，后续可用 fillna() 或 df['owl'].fillna(0) 统一补零；
若需保留第二数值（如 dog 10 20 中的 20），可扩展为 row[f"{animal}_score"] = val1 和 row[f"{animal}_count"] = val2；
对于更复杂嵌套结构（如多级子组），建议改用正则预解析或 itertools.groupby 配合自定义键函数。

该方法兼顾简洁性与工程鲁棒性，是文本结构化场景下的推荐实践。

相关标签:

pandas 循环 len append

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Flask POST 请求中 JSON 数据无法解析的常见原因及解决方案下一篇：Pandas 中将多行分组数据合并为单行的高效方法

作者最新文章

Maven 多模块项目中按 Profile 动态构建子集模块的正确实践

2026-03-15 15:56

河马剧场短剧在线浏览入口在哪

2026-03-15 16:00

Java 控制台输出日文颜文字（Kaomoji）乱码问题的完整解决方案

2026-03-15 16:00

TypeScript ESM 导入中省略文件扩展名的正确配置方案

2026-03-15 16:02

如何在 Go 中正确处理 HTTP 超时错误并准确获取响应状态码

2026-03-15 16:52

如何在 Java 中正确编写空值检查以避免 @Nonnull 赋值警告

2026-03-15 16:58

Python 中安全高效地解析并验证字典键值对的自定义条件表达式

2026-03-15 17:01

实现 Circle 类的 add 方法：基于面积叠加计算新半径

2026-03-15 17:01

如何让包含多个的长 div 自动换行

2026-03-15 17:06

如何在 Go 中正确反序列化 JSON 并访问结构体字段

2026-03-15 17:27

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

append用法

append是一个常用的命令行工具，用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容，可以阅读本专题下面的文章。

349

2023.10.25

python中append的用法

在Python中，append()是列表对象的一个方法，用于向列表末尾添加一个元素。想了解更多append的更多内容，可以阅读本专题下面的文章。

1080

2023.11.14

python中append的含义

本专题整合了python中append的相关内容，阅读专题下面的文章了解更多详细内容。

187

2025.09.12

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18