0

0

Pandas与SQL高效重构长格式数据为宽格式列表

霞舞

霞舞

发布时间:2025-10-18 09:10:01

|

958人浏览过

|

来源于php中文网

原创

Pandas与SQL高效重构长格式数据为宽格式列表

本教程探讨了如何高效地将sql数据库中拉取的长格式数据重构为宽格式列表,特别关注性能优化。文章详细介绍了pandas中`pivot`、`set_index`和`unstack`等函数的应用,并通过预过滤数据来提升性能。此外,还强调了在sql层面进行数据透视的巨大优势,提供sql查询示例,旨在帮助读者在python数据处理中实现更快的重构速度。

数据重构需求与挑战

在数据分析和处理中,我们经常会遇到将“长格式”数据(即同一类别的数据以多行形式存储)转换为“宽格式”数据(即同一类别的数据以多列形式存储)的需求。例如,从关系型数据库中获取的数据通常是长格式的,其中包含时间戳、测量类型和对应值。我们需要将其重构为以时间为索引,每个测量类型(如A、B、C、D)作为独立列表的结构。

原始数据结构示例:

Time QuantityMeasured Value
t1 A 7
t1 B 2
... ... ...
tn D 1

目标数据结构示例:

list_of_time = ['t1', ..., 'tn']
list_of_A    = [7, ..., 5]
list_of_B    = [2, ..., 5]
list_of_C    = [8, ..., 3]
list_of_D    = [9, ..., 8]

这种转换在处理大量数据时,性能往往成为关键考量。

Pandas数据重构与性能优化

Pandas库提供了多种强大的工具来处理这类数据重构任务。

1. 使用 pivot 函数进行基础重构

pivot函数是Pandas中用于数据透视的直接方法。它通过指定索引、列和值来重塑DataFrame。

import pandas as pd

# 假设df是您的原始DataFrame
# df = pd.read_sql("SELECT Time, QuantityMeasured, Value FROM your_table", your_connection)

data = {
    'Time': ['t1', 't1', 't1', 't1', 't1', 'tn', 'tn', 'tn', 'tn', 'tn'],
    'QuantityMeasured': ['A', 'B', 'C', 'D', 'E', 'A', 'C', 'E', 'B', 'D'],
    'Value': [7, 2, 8, 9, 5, 5, 3, 4, 5, 1]
}
df = pd.DataFrame(data)

pivot_df = df.pivot(index='Time', columns='QuantityMeasured', values='Value')
print("原始pivot结果:")
print(pivot_df)

# 提取目标列表
list_of_time = pivot_df.index.tolist()
list_of_A = pivot_df['A'].tolist()
list_of_B = pivot_df['B'].tolist()
list_of_C = pivot_df['C'].tolist()
list_of_D = pivot_df['D'].tolist()

print("\n提取的列表示例:")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

这种方法虽然直观,但在处理包含大量不必要QuantityMeasured类别的数据时,可能会因为生成一个非常宽的中间DataFrame而效率不高。

2. 预过滤数据以提升 pivot 性能

如果只需要特定QuantityMeasured类别(例如'A', 'B', 'C', 'D'),在进行透视操作之前对数据进行过滤,可以显著减少pivot操作的计算量,从而提升性能。这类似于SQL中的WHERE子句或Excel中的筛选功能。

# 假设我们只需要 'A', 'B', 'C', 'D' 这四种测量值
desired_quantities = ['A', 'B', 'C', 'D']

agg_df = (
    df.query("QuantityMeasured in @desired_quantities") # 使用query进行预过滤
    .pivot(index='Time', columns='QuantityMeasured', values='Value')
)
print("\n预过滤后的pivot结果:")
print(agg_df)

# 提取目标列表
list_of_time = agg_df.index.tolist()
list_of_A = agg_df['A'].tolist()
list_of_B = agg_df['B'].tolist()
list_of_C = agg_df['C'].tolist()
list_of_D = agg_df['D'].tolist()

print("\n提取的列表示例(预过滤后):")
print(f"Time: {list_of_time}")
print(f"A: {list_of_A}")

注意事项:

PictoGraphic
PictoGraphic

AI驱动的矢量插图库和插图生成平台

下载
  • query方法提供了一种简洁高效的行筛选方式。@desired_quantities语法允许在query字符串中引用外部变量。
  • 通过预过滤,中间DataFrame的宽度大大减小,减少了内存消耗和计算时间。

3. 使用 set_index 和 unstack 替代 pivot

pivot函数在底层通常会调用set_index和unstack。在某些特定场景下,直接使用set_index和unstack可能会带来轻微的性能优势。

agg_df_unstack = (
    df
    .query("QuantityMeasured in @desired_quantities") # 同样进行预过滤
    .set_index(['Time', 'QuantityMeasured'])['Value'] # 将Time和QuantityMeasured设为多级索引
    .unstack() # 将QuantityMeasured从索引转换为列
)
print("\n使用set_index和unstack的结果:")
print(agg_df_unstack)

# 提取目标列表
list_of_time_unstack = agg_df_unstack.index.tolist()
list_of_A_unstack = agg_df_unstack['A'].tolist()
list_of_B_unstack = agg_df_unstack['B'].tolist()
list_of_C_unstack = agg_df_unstack['C'].tolist()
list_of_D_unstack = agg_df_unstack['D'].tolist()

print("\n提取的列表示例(set_index和unstack):")
print(f"Time: {list_of_time_unstack}")
print(f"A: {list_of_A_unstack}")

性能考量: 尽管Pandas提供了强大的数据重构能力,但对于大规模数据集,纯Python/Pandas的性能提升往往存在瓶颈。期望将处理时间缩短一个数量级(例如从0.2秒到0.02秒)在Python环境中可能不切实际,尤其是在涉及约1.85万个数据点时。对于更显著的性能提升,应考虑将数据处理的重心转移到数据源端,即SQL数据库。

SQL层面进行数据透视以实现极致性能

将数据透视操作在SQL查询阶段完成,是实现大幅性能提升的最佳策略。数据库系统通常针对这类聚合和重构操作进行了高度优化,并且避免了将大量原始数据传输到Python环境再进行处理的开销。

以下是一个在SQL中实现数据透视的示例查询:

SELECT
  Time,
  SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
  SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
  SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
  SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
FROM your_table_name -- 将 'your_table_name' 替换为实际的表名
GROUP BY Time
ORDER BY Time; -- 可选:按时间排序

解释:

  • CASE WHEN 语句用于根据 QuantityMeasured 的值有条件地选择 Value。如果 QuantityMeasured 是 'A',则取 Value,否则为0。
  • SUM 聚合函数将同一 Time 下的所有 Value(经过 CASE WHEN 处理后)相加。由于我们希望每个 QuantityMeasured 类别独立成列,并且在同一 Time 下每个 QuantityMeasured 只有一个 Value,SUM在这里实际上起到了“选择”该值的作用。如果存在多个相同Time和QuantityMeasured的记录,SUM会将其加总,这可能需要根据实际业务逻辑调整(例如使用MAX或AVG)。
  • GROUP BY Time 将结果按 Time 分组,确保每个 Time 对应一行数据。

执行此SQL查询后,数据库将直接返回一个已经透视好的结果集,其结构与我们最终想要的DataFrame非常相似。之后,您只需将这个结果加载到Pandas DataFrame中,并简单地提取为列表即可,这会比在Python中进行复杂重构快得多。

# 假设您已经建立了数据库连接
# import sqlalchemy
# engine = sqlalchemy.create_engine("mysql+mysqlconnector://user:password@host/db")

# sql_query = """
# SELECT
#   Time,
#   SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
#   SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
#   SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
#   SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
# FROM your_table_name
# GROUP BY Time
# ORDER BY Time;
# """

# pivoted_df_from_sql = pd.read_sql(sql_query, engine)

# # 从Pandas DataFrame中提取列表
# list_of_time_sql = pivoted_df_from_sql['Time'].tolist()
# list_of_A_sql = pivoted_df_from_sql['A'].tolist()
# list_of_B_sql = pivoted_df_from_sql['B'].tolist()
# list_of_C_sql = pivoted_df_from_sql['C'].tolist()
# list_of_D_sql = pivoted_df_from_sql['D'].tolist()

总结

在将长格式数据重构为宽格式列表的场景中,性能优化是关键。

  1. Pandas内部优化: 在使用Pandas进行重构时,务必在透视操作(如pivot或set_index().unstack())之前,通过query或条件筛选对数据进行预过滤。这能有效减少中间DataFrame的大小,从而提升效率。
  2. 性能瓶颈与预期: 即使经过优化,纯Python/Pandas在处理数万级别的数据点时,其性能提升也存在上限。期望实现数量级(如10倍)的加速可能不现实。
  3. SQL层面重构: 对于追求极致性能的场景,最推荐的方法是在SQL数据库层面完成数据透视。通过编写高效的SQL查询(如使用CASE WHEN和GROUP BY),可以将繁重的计算任务转移到数据库服务器,显著减少数据传输量和Python端的处理负担,从而获得最显著的性能提升。

选择哪种方法取决于您的具体需求、数据量以及对性能的要求。对于中小型数据集,Pandas的优化可能已足够;而对于大型数据集或对响应时间有严格要求的应用,SQL层面的重构无疑是更优的选择。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

727

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

327

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

350

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1242

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

360

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

820

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

581

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

423

2024.04.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 2万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 812人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号