如何将Pandas中多行分组数据合并为单行结构

霞舞

发布时间：2026-03-18 11:17:25

590人浏览过

来源于php中文网

原创

如何将Pandas中多行分组数据合并为单行结构

本文介绍如何将按组分散在多行中的动物数值数据（如dog、cat、owl）高效聚合成每组一行的宽格式dataframe，避免原始循环导致的重复行问题，并提供健壮的解析逻辑与最佳实践。

本文介绍如何将按组分散在多行中的动物数值数据（如dog、cat、owl）高效聚合成每组一行的宽格式dataframe，避免原始循环导致的重复行问题，并提供健壮的解析逻辑与最佳实践。

在处理从文本日志、配置文件或爬虫输出等非结构化源提取的分组数据时，一个常见需求是：将同一逻辑组（如 Group1、Group2）下多个同类条目（如 dog 10 20、cat 21 32）合并到单一行中，形成类似数据库宽表（wide-table）的结构。原始代码的问题在于——每次匹配到 dog/cat/owl 就新建一条记录，导致组内数据被拆散成多行；而正确思路应是以组为单位累积字段值，再统一提交为一行。

核心策略是：使用一个动态字典 row 作为当前组的“暂存容器”，在遇到新 GroupX 行时，先将上一组的 row 推入结果列表 extract，再初始化新 row；后续所有同组动物行仅更新该字典对应键值，而非创建新记录。

以下是优化后的完整实现：

import pandas as pd

data = """
Jan 2024
Group1 02/02/2024
dog 10 20
cat 21 32
Group2 05/02/2024
dog 23 45
cat 45 65
owl 24 12
monthly
Admin 02 22
clean 05 32
"""

extract = []
row = None  # 当前组的数据容器

for line in data.splitlines():
    line = line.strip()
    if not line:  # 跳过空行
        continue

    # 检测新分组开始
    if line.startswith("Group"):
        # 若已有正在构建的组，先保存它
        if row is not None:
            extract.append(row)
        # 初始化新组：提取组名（如 "Group1"），忽略日期等冗余内容
        group_name = line.split()[0]
        row = {"group": group_name}

    # 解析动物数据行（需确保以 animal 开头且含至少两个值）
    elif line.split() and line.split()[0] in ("dog", "cat", "owl"):
        parts = line.split()
        if len(parts) >= 3:
            animal, val1, _ = parts[0], parts[1], parts[2]  # 只取第一个数值
            row[animal] = val1

# 循环结束后，别忘了追加最后一个组
if row is not None:
    extract.append(row)

# 构建 DataFrame，并规范列顺序
df = pd.DataFrame(extract)
df = df[["group", "dog", "cat", "owl"]]
print(df)

输出结果：

AIPURE

AIPURE帮您轻松找到2024年最佳AI工具

下载

    group dog cat  owl
0  Group1  10  21  NaN
1  Group2  23  45   24

✅ 关键优势说明：

逻辑清晰：状态管理（row 生命周期）显式可控，无隐式分组依赖；
健壮性强：自动跳过空行、忽略非目标行（如 Jan 2024、monthly），不因异常输入崩溃；
可扩展性好：新增动物类型（如 fox）只需在 elif 条件中补充即可，无需修改主干结构；
内存友好：逐行处理，不加载全量中间结构，适合大文件流式解析。

⚠️ 注意事项：

若某组缺失某种动物（如 Group1 无 owl），对应列为 NaN，后续可使用 df.fillna("") 或 df["owl"].fillna(0) 统一填充；
实际生产中建议添加 try/except 包裹 line.split() 和索引操作，防止格式异常；
对于更复杂嵌套结构（如多级子组、重复键），推荐改用正则预解析或 itertools.groupby 配合自定义键函数。

此方法规避了 groupby().agg() 等后处理方案对原始行序和标识一致性的强依赖，从源头保证数据聚合的准确性与可维护性，是文本结构化任务中的经典模式。

相关标签:

pandas try 循环 table 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python Flask怎么连数据库_Flask-SQLAlchemy模型类操作实战与数据库增删改查下一篇：暂无

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

391

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2113

2023.08.14

vb怎么连接数据库

在VB中，连接数据库通常使用ADO（ActiveX 数据对象）或 DAO（Data Access Objects）这两个技术来实现：1、引入ADO库；2、创建ADO连接对象；3、配置连接字符串；4、打开连接；5、执行SQL语句；6、处理查询结果；7、关闭连接即可。

359

2023.08.31

MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容，供大家免费下载体验。

259

2023.09.05

vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容，供大家免费下载体验。

329

2023.10.09

数据库对象名无效怎么解决

数据库对象名无效解决办法：1、检查使用的对象名是否正确，确保没有拼写错误；2、检查数据库中是否已存在具有相同名称的对象，如果是，请更改对象名为一个不同的名称，然后重新创建；3、确保在连接数据库时使用了正确的用户名、密码和数据库名称；4、尝试重启数据库服务，然后再次尝试创建或使用对象；5、尝试更新驱动程序，然后再次尝试创建或使用对象。

420

2023.10.16

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板