0

0

Redshift大数据量DataFrame高速插入策略

心靈之曲

心靈之曲

发布时间:2025-11-25 10:46:40

|

482人浏览过

|

来源于php中文网

原创

redshift大数据量dataframe高速插入策略

本文旨在解决从Python DataFrame向Amazon Redshift数据库插入大量数据时效率低下的问题。我们将探讨并对比两种主要的高速插入策略:优化的SQL批量插入(通过psycopg2.extras.execute_values)和Redshift官方推荐的COPY命令(结合S3作为中间存储),提供详细的实现代码和最佳实践,帮助用户显著提升数据加载性能,避免长时间等待和超时错误。

Redshift大数据插入的挑战与优化

在处理大规模数据时,将Python DataFrame中的数据高效地导入到Amazon Redshift等列式存储数据库是一个常见的挑战。传统的逐行插入或使用executemany的批量插入方法,对于Redshift这类针对批量加载优化的数据库而言,效率往往低下,容易导致长时间运行甚至超时错误。Redshift的设计哲学是利用并行处理能力,一次性处理大量数据,而非频繁的小事务。

用户尝试的两种方法,无论是将DataFrame转换为字典列表后使用executemany,还是转换为元组列表后循环execute,都未能达到理想的速度。这主要是因为这些方法在底层可能仍然导致数据库执行了大量独立的INSERT语句,或者未能充分利用Redshift的并行加载优势。对于数十万甚至数百万行的数据,我们需要更专业的策略。

Redshift官方文档明确指出:“如果COPY命令不是一个选项,并且您需要SQL插入,请尽可能使用多行插入。当您一次只添加一行或几行数据时,数据压缩效率低下。” 这强调了两种核心优化方向:多行SQL插入和更高效的COPY命令。

网趣网上购物系统HTML静态版
网趣网上购物系统HTML静态版

网趣购物系统静态版支持网站一键静态生成,采用动态进度条模式生成静态,生成过程更加清晰明确,商品管理上增加淘宝数据包导入功能,与淘宝数据同步更新!采用领先的AJAX+XML相融技术,速度更快更高效!系统进行了大量的实用性更新,如优化核心算法、增加商品图片批量上传、谷歌地图浏览插入等,静态版独特的生成算法技术使静态生成过程可随意掌控,从而可以大大减轻服务器的负担,结合多种强大的SEO优化方式于一体,使

下载

方法一:优化SQL插入(批量插入)

虽然Redshift推荐使用COPY命令进行大规模数据加载,但在某些场景下,如果数据量不是极端巨大(例如数十万到数百万行),或者不希望引入S3作为中间存储的复杂性,优化的SQL批量插入仍然是一个可行的选择。这里的“优化”指的是使用数据库驱动程序提供的、能够将多行数据打包成单个SQL语句的机制,而不是发送多个独立的INSERT语句。

psycopg2库提供了psycopg2.extras.execute_values函数,它能够高效地构建一个包含多组VALUES的多行INSERT语句,并一次性发送给数据库。这比循环执行单行插入或简单的executemany(在某些情况下可能仍然分解为多个语句)效率更高。

实现示例:使用 psycopg2.extras.execute_values

import pandas as pd
import psycopg2
from psycopg2.extras import execute_values
from datetime import date

# 假设这是你的DataFrame数据
data = [
    (69370, 'subject', 'working', 1, date(2023, 12, 15)),
    (69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
    (69370, 'subject', 'intended', 1, date(2023, 12, 15)),
    (69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
    (69371, 'subject', 'ge', 2, date(2023, 12, 15)),
    (69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
    (69371, 'subject', 'flush', 1, date(2023, 12, 15)),
    (69371, 'subject', 'motion', 1, date(2023, 12, 15)),
    (69371, 'subject', 'led', 1, date(2023, 12, 15)),
    (69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
    (69371, 'subject', 'contact', 1, date(2023, 12, 15)),
    # ... 更多数据,假设有60万条记录
]
# 为了演示,我们生成更多数据
for i in range(100000): # 模拟大量数据
    data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))

df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])

# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'

conn = None
cur = None

try:
    conn = psycopg2.connect(
        host=REDSHIFT_HOST,
        database=REDSHIFT_DB,
        user=REDSHIFT_USER,
        password=REDSHIFT_PASSWORD,
        port=REDSHIFT_PORT
    )
    conn.autocommit = False # 确保在事务中操作
    print("成功连接到 RedShift")
    cur = conn.cursor()

    table_name = "odey.sfc_ca_sit_di"
    columns = "(case_id, column_name, split_text, split_text_cnt, load_ts)"

    # 将DataFrame转换为元组列表
    # 注意:日期对象需要被psycopg2正确处理,通常直接传递date对象即可
    rows_to_insert = [tuple(row) for row in df.itertuples(index=False)]

    # 定义批量大小,可以根据网络、数据库性能调整
    batch_size = 10000 
    total_inserted_rows = 0

    print(f"开始批量插入 {len(rows_to_insert)} 条记录...")
    for i in range(0, len(rows_to_insert), batch_size):
        batch = rows_to_insert[i:i + batch_size]
        sql = f"INSERT INTO {table_name} {columns} VALUES %s"
        execute_values(cur, sql, batch)
        total_inserted_rows += len(batch)
        print(f"已插入 {total_inserted_rows} / {len(rows_to_insert)} 条记录")

    conn.commit()
    print(f"所有 {total_inserted_rows} 条记录成功插入 (批量插入方式)")

except psycopg2.Error as e:
    if conn:
        conn.rollback()
    print(f"批量插入失败: {e}")
except Exception as e:
    print(f"发生未知错误: {e}")
finally:
    if cur:
        cur.close()
    if conn:
        conn.close()
    print("数据库连接已关闭。")

注意事项

  • 批量大小(batch_size):选择合适的批量大小至关重要。过小会增加数据库交互次数,过大可能导致单个SQL命令超过Redshift的16MB限制,或消耗过多内存。通常,几千到几万行是一个合理的起点,需要根据实际环境进行测试和调整。
  • 事务管理:务必在事务中执行批量插入,即在所有批次完成后统一commit(),如果任何批次失败则rollback()。这能保证数据的一致性。
  • 数据类型匹配:确保DataFrame中的数据类型与Redshift目标表的列类型严格匹配,否则可能导致插入失败。

方法二:Redshift COPY 命令(推荐的超高速方案)

对于真正大规模的数据加载(数百万行甚至TB级别),Redshift官方强烈推荐使用COPY命令。COPY命令是Redshift专门为高速数据加载设计的,它能够直接从Amazon S3、Amazon DynamoDB或Amazon EMR等数据源并行加载数据,效率远超任何基于SQL的INSERT方法。

其核心思想是:将DataFrame数据导出为文件(如CSV、Parquet),上传到Amazon S3,然后指示Redshift从S3读取这些文件并加载到表中。

工作流程

  1. DataFrame导出为文件:将Python DataFrame中的数据导出为CSV或Parquet格式的文件。对于大型数据集,建议将数据分割成多个小文件(例如,每个文件1GB左右),以充分利用Redshift的并行加载能力。
  2. 上传至Amazon S3:使用boto3库将这些文件上传到预配置的S3存储桶。
  3. 执行Redshift COPY命令:通过psycopg2连接Redshift,并执行COPY SQL命令,指定S3文件的位置、IAM角色、文件格式等参数。

实现示例:使用 Pandas, Boto3, Psycopg2

import pandas as pd
import boto3
import io
import psycopg2
from datetime import date
import os

# 假设这是你的DataFrame数据
data = [
    (69370, 'subject', 'working', 1, date(2023, 12, 15)),
    (69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
    (69370, 'subject', 'intended', 1, date(2023, 12, 15)),
    (69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
    (69371, 'subject', 'ge', 2, date(2023, 12, 15)),
    (69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
    (69371, 'subject', 'flush', 1, date(2023, 12, 15)),
    (69371, 'subject', 'motion', 1, date(2023, 12, 15)),
    (69371, 'subject', 'led', 1, date(2023, 12, 15)),
    (69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
    (69371, 'subject', 'contact', 1, date(2023, 12, 15)),
    # ... 更多数据
]
# 为了演示,我们生成更多数据 (约60万条)
for i in range(600000): 
    data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))

df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])

# 将日期列转换为字符串,以匹配CSV格式
df['load_ts'] = df['load_ts'].astype(str)

# S3配置
S3_BUCKET_NAME = 'your-s3-bucket-for-redshift-data' # 替换为你的S3桶名
S3_KEY_PREFIX = 'redshift_temp_data/' # S3上的路径前缀
IAM_ROLE_ARN = 'arn:aws:iam::YOUR_ACCOUNT_ID:role/YourRedshiftIAMRole' # 替换为具有S3读权限的IAM角色ARN
AWS_REGION = 'us-east-1' # S3桶和Redshift集群所在的AWS区域

# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'

conn = None
cur = None
s3_client = boto3.client('s3', region_name=AWS_REGION)

try:
    # 1. DataFrame导出为CSV并上传到S3
    print("开始将DataFrame导出为CSV并上传到S3...")
    file_name = f"data_{pd.Timestamp.now().strftime('%Y%m%d%H%M%S')}.csv"
    s3_full_key = S3_KEY_PREFIX + file_name

    csv_buffer = io.StringIO()
    # 注意:header=False, index=False 是COPY命令的常见要求
    df.to_csv(csv_buffer, index=False, header=False, sep=',', encoding='utf-8') 

    s3_client.put_object

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1090

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

340

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

380

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

2028

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

379

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1580

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

438

2024.04.29

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

4

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号