Pandas数据重塑：将行级页面数据转换为列级格式

DDD

发布时间：2025-11-18 14:08:00

302人浏览过

来源于php中文网

原创

Pandas数据重塑：将行级页面数据转换为列级格式

本文详细介绍了如何使用pandas的`pivot`函数将行级别的数据（例如按页码分布的报告信息）高效地转换为列级别格式。通过一个具体的示例，文章演示了如何利用`index`、`columns`和`values`参数进行数据透视，并结合`add_prefix`、`reset_index`和`rename_axis`等方法，实现将特定行数据转换为带有描述性新列名的列，从而优化数据结构以满足分析需求。

在数据分析和处理中，我们经常会遇到需要将数据的行转换为列的场景，这种操作通常被称为数据透视（pivot）。当原始数据以“长格式”存储，即多个相关属性值分散在不同的行中时，为了便于比较和分析，我们可能需要将其转换为“宽格式”，使每个属性值成为一个独立的列。本文将以一个具体的示例，讲解如何使用Pandas库中的pivot函数实现这一转换，特别是针对具有层级结构（如年度报告中的页面信息）的数据。

场景描述与初始数据结构

假设我们有一份关于公司年度报告的数据，其中包含了公司（FIRM）、年份（YEAR）、报告页码（Report Page）以及对应页码的某个数值（Value1）。初始数据以行级别存储，即同一份报告的不同页面信息分别占据不同的行。

以下是示例数据及其DataFrame表示：

import pandas as pd

data = {
    'FIRM': ['A', 'A', 'B', 'B'],
    'YEAR': [2012, 2012, 2013, 2013],
    'Report Page': [1, 2, 1, 2],
    'Value1': [10, 15, 20, 25]
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出的DataFrame结构如下：

原始DataFrame:
  FIRM  YEAR  Report Page  Value1
0    A  2012            1       10
1    A  2012            2       15
2    B  2013            1       20
3    B  2013            2       25

我们的目标是将每个报告（由FIRM和YEAR唯一标识）的页面信息（Value1）从行转换为列。具体来说，我们希望将Report Page列中的页码转换为新的列名的一部分，例如Value1_Page1、Value1_Page2，并将对应的Value1值填充到这些新列中。

期望的输出格式如下：

  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

使用 pandas.pivot 进行数据重塑

Pandas的pivot函数是实现这种数据重塑的核心工具。它允许我们指定哪些列作为新的索引（行）、哪些列作为新的列名，以及哪些列的值将填充到新的DataFrame中。

pivot函数的基本语法是：df.pivot(index=None, columns=None, values=None)。

index: 用于构建新DataFrame索引的列或列的列表。
columns: 用于构建新DataFrame列名的列。
values: 用于填充新DataFrame值的列。

根据我们的目标，我们需要：

SSP网店系统单用户免费普及版

前后台订单管理页添加商品缩图显示后台系统设置可直接对商品缩图大小进行设置去掉商品图片水印功能上传一张图片,可同时生成列表页缩图及商品详细页缩图,以不同的大小满足页面不同的需要商品收藏添加批量删除功能修改商品详细页会员等级显示BUG 优化缩图生成功能(注:因此次优化已更换上传内核,所以有可能会影响已上传商品图片数据) 加入简繁转换前台订单管理添加单订单在线支付功能修正VS081样式前台

下载

以FIRM和YEAR作为新的索引，因为它们共同定义了一个唯一的报告。
以Report Page作为新的列名，因为我们希望每个页码成为一个独立的列。
以Value1作为填充新列的值。

因此，我们可以这样使用pivot函数：

# 步骤1: 使用pivot函数进行透视
pivoted_df = df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')
print("\n透视后的DataFrame (初步):")
print(pivoted_df)

执行上述代码后，pivoted_df的输出将是：

透视后的DataFrame (初步):
Report Page     1   2
FIRM YEAR            
A    2012      10  15
B    2013      20  25

可以看到，FIRM和YEAR已经成为新的复合索引，Report Page的值（1和2）成为了新的列名，并且Value1的值被正确地填充。

后续处理：重命名列和重置索引

虽然pivot函数完成了大部分工作，但为了达到最终期望的输出格式，我们还需要进行一些后处理：

添加列名前缀： 原始的列名是页码（1, 2），我们希望它们是Value1_Page1、Value1_Page2。
重置索引： FIRM和YEAR目前是索引，我们希望它们作为常规列。
清理列索引名称： pivot操作可能会在列索引上留下一个名称（例如Report Page），这通常是不需要的。

我们可以通过链式操作来完成这些步骤：

final_df = (
    df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')
    .add_prefix('Value1_Page')  # 为新生成的列名添加前缀
    .reset_index()              # 将索引（FIRM, YEAR）转换为常规列
    .rename_axis(None, axis=1)  # 清除列索引的名称
)

print("\n最终转换后的DataFrame:")
print(final_df)

最终输出的DataFrame将完全符合我们的预期：

最终转换后的DataFrame:
  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

注意事项与扩展

pivot与pivot_table的区别：
- pivot要求index和columns的组合必须是唯一的。如果存在重复组合，pivot会抛出错误。
- pivot_table功能更强大，可以处理重复组合，并通过aggfunc参数指定聚合函数（如sum、mean等）来处理重复值。如果你的数据可能存在相同FIRM、YEAR和Report Page的行，并且需要对Value1进行聚合，那么pivot_table是更合适的选择。
处理页面数量不一致的情况： 本解决方案能够自然地处理不同报告具有不同页面数量的情况。如果某个报告缺少某一页的数据，相应的新列中将填充NaN（Not a Number）。例如，如果报告A只有Page1，而没有Page2，那么Value1_Page2列对于报告A的行将是NaN。
多值列的透视： 如果需要透视多个值列（例如除了Value1还有Value2），可以将values参数设置为一个列表，例如values=['Value1', 'Value2']。在这种情况下，add_prefix可能需要更精细的控制，或者在透视后手动重命名列。

总结

通过本文的详细讲解，我们学习了如何利用Pandas的pivot函数将行级别的页面数据转换为列级别格式。结合add_prefix、reset_index和rename_axis等辅助函数，我们可以灵活地重塑DataFrame，使其更符合数据分析和报告的需求。掌握pivot及其相关操作是Pandas数据处理中一项非常实用的技能，能够显著提高数据清洗和准备的效率。

Python接口思想如何体现_鸭子类型解析

Python 重构 Python 项目实践

Python学习路线规划_Python进阶学习指南

Selenium 显式等待失效：元素可点击但被遮挡的解决方案

Python项目结构设计_工程化组织方式

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

548

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04