0

0

使用 Pandas 加速 SQL 表格数据重构的实用指南

碧海醫心

碧海醫心

发布时间:2025-10-18 12:32:01

|

942人浏览过

|

来源于php中文网

原创

使用 pandas 加速 sql 表格数据重构的实用指南

本文旨在提供一种高效的方法,利用 Pandas 库对从 SQL 数据库中提取的数据进行重构,特别是将长格式数据转换为宽格式数据。我们将探讨如何通过预先筛选数据和使用 `pivot` 或 `set_index/unstack` 方法来优化数据重构过程,并讨论在 Python 中进行此类操作的性能瓶颈。同时,我们还会介绍如何在 SQL 查询层面进行数据透视,以获得更高的性能提升。

Pandas 数据重构优化

当从 SQL 数据库中提取数据并需要将其重构为特定格式时,Pandas 提供了强大的工具。以下是一些优化技巧,可以显著提高数据重构的速度。

1. 预先筛选数据

如果只需要数据集中特定类别的数据,例如示例中的 'A'、'B'、'C' 和 'D',则在进行数据透视之前,务必先筛选掉不需要的数据。这可以显著减少需要处理的数据量,从而提高性能。

import pandas as pd

# 假设 df 是从 SQL 数据库中读取的 Pandas DataFrame
agg_df = df.query("QuantityMeasured in ['A', 'B', 'C', 'D']")

2. 使用 pivot 函数

Pandas 的 pivot 函数是重构数据的常用方法。它允许你指定索引列、列和值,从而将长格式数据转换为宽格式数据。

pivot_df = agg_df.pivot(index='Time', columns='QuantityMeasured', values='Value')
time = pivot_df.index.tolist()
A = pivot_df['A'].tolist()
B = pivot_df['B'].tolist()
C = pivot_df['C'].tolist()
D = pivot_df['D'].tolist()

3. 使用 set_index 和 unstack

pivot 函数底层实际上是 set_index 和 unstack 的组合。在某些情况下,直接使用这两个函数可能会略微提高性能。

agg_df = (
    df
    .query("QuantityMeasured in ['A', 'B', 'C', 'D']")
    .set_index(['Time', 'QuantityMeasured'])['Value'].unstack()
)

4. 将结果转换为列表

如果需要将重构后的数据转换为列表,可以使用 values.tolist() 方法。

我的小书坊源码(三层实现)
我的小书坊源码(三层实现)

可以实现用户的在线注册、登陆后可以添加图书、购买图书,可以对图书类别、出版社、价格等进行饼图分析默认帐号/密码:51aspx/51aspx该系统采用三层接口开发,App_Code下为三层结构的代码文件,适合三层入门者学习使用数据绑定控件使用的是GridView,顶部公用文件采用了UserControl用户控件调用DB_51aspx下为Sql数据库文件,附件即可【该源码由51aspx提供】

下载
time = agg_df.index.tolist()
list_of_A, list_of_B, list_of_C, list_of_D = agg_df.values.T.tolist()

SQL 数据透视

虽然 Pandas 提供了强大的数据重构功能,但在某些情况下,在 SQL 查询层面进行数据透视可能更有效。这可以将数据重构的负担转移到数据库服务器,从而减轻 Python 程序的负担。

以下是一个示例 SQL 查询,用于将数据透视为所需的格式:

SELECT
  Time,
  SUM(CASE WHEN QuantityMeasured = 'A' THEN Value ELSE 0 END) AS A,
  SUM(CASE WHEN QuantityMeasured = 'B' THEN Value ELSE 0 END) AS B,
  SUM(CASE WHEN QuantityMeasured = 'C' THEN Value ELSE 0 END) AS C,
  SUM(CASE WHEN QuantityMeasured = 'D' THEN Value ELSE 0 END) AS D
FROM your_table_name  -- 将 your_table_name 替换为你的表名
GROUP BY Time;

此查询使用 CASE 语句和 SUM 函数来根据 QuantityMeasured 列的值计算每个 Time 的总和。结果是一个宽格式的表,其中每一列代表一个 QuantityMeasured 值。

优点:

  • 性能提升: 在数据库服务器上进行数据透视通常比在 Python 中使用 Pandas 更快。
  • 减少数据传输: 通过在数据库中进行数据透视,可以减少需要传输到 Python 程序的数据量。

缺点:

  • SQL 复杂性: 编写 SQL 查询进行数据透视可能比使用 Pandas 更复杂。
  • 数据库依赖性: 此方法依赖于数据库服务器的功能。

性能考量

在 Python 中进行数据重构的性能受到多种因素的影响,包括数据量、数据类型和硬件配置。对于中等大小的数据集(例如 18.5k 数据点),期望在 0.02 秒内完成数据透视可能不切实际。

虽然可以通过优化 Pandas 代码或使用 SQL 数据透视来提高性能,但仍然存在一些限制。如果需要更高的性能,可以考虑使用更强大的硬件或使用其他数据处理技术,例如 Apache Spark。

总结

本文介绍了如何使用 Pandas 和 SQL 来加速 SQL 表格数据的重构。通过预先筛选数据、使用 pivot 或 set_index/unstack 方法以及在 SQL 查询层面进行数据透视,可以显著提高数据重构的速度。在选择最佳方法时,应考虑数据量、性能要求和 SQL 复杂性等因素。记住,在数据库层面进行数据透视通常能带来显著的性能提升,尤其是在处理大量数据时。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

751

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

328

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

350

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1304

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

361

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

881

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

581

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

425

2024.04.29

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号