0

0

Redshift大数据量DataFrame高速插入策略

心靈之曲

心靈之曲

发布时间:2025-11-25 10:46:40

|

482人浏览过

|

来源于php中文网

原创

redshift大数据量dataframe高速插入策略

本文旨在解决从Python DataFrame向Amazon Redshift数据库插入大量数据时效率低下的问题。我们将探讨并对比两种主要的高速插入策略:优化的SQL批量插入(通过psycopg2.extras.execute_values)和Redshift官方推荐的COPY命令(结合S3作为中间存储),提供详细的实现代码和最佳实践,帮助用户显著提升数据加载性能,避免长时间等待和超时错误。

Redshift大数据插入的挑战与优化

在处理大规模数据时,将Python DataFrame中的数据高效地导入到Amazon Redshift等列式存储数据库是一个常见的挑战。传统的逐行插入或使用executemany的批量插入方法,对于Redshift这类针对批量加载优化的数据库而言,效率往往低下,容易导致长时间运行甚至超时错误。Redshift的设计哲学是利用并行处理能力,一次性处理大量数据,而非频繁的小事务。

用户尝试的两种方法,无论是将DataFrame转换为字典列表后使用executemany,还是转换为元组列表后循环execute,都未能达到理想的速度。这主要是因为这些方法在底层可能仍然导致数据库执行了大量独立的INSERT语句,或者未能充分利用Redshift的并行加载优势。对于数十万甚至数百万行的数据,我们需要更专业的策略。

Redshift官方文档明确指出:“如果COPY命令不是一个选项,并且您需要SQL插入,请尽可能使用多行插入。当您一次只添加一行或几行数据时,数据压缩效率低下。” 这强调了两种核心优化方向:多行SQL插入和更高效的COPY命令。

方法一:优化SQL插入(批量插入)

虽然Redshift推荐使用COPY命令进行大规模数据加载,但在某些场景下,如果数据量不是极端巨大(例如数十万到数百万行),或者不希望引入S3作为中间存储的复杂性,优化的SQL批量插入仍然是一个可行的选择。这里的“优化”指的是使用数据库驱动程序提供的、能够将多行数据打包成单个SQL语句的机制,而不是发送多个独立的INSERT语句。

网趣网上购物系统HTML静态版
网趣网上购物系统HTML静态版

网趣购物系统静态版支持网站一键静态生成,采用动态进度条模式生成静态,生成过程更加清晰明确,商品管理上增加淘宝数据包导入功能,与淘宝数据同步更新!采用领先的AJAX+XML相融技术,速度更快更高效!系统进行了大量的实用性更新,如优化核心算法、增加商品图片批量上传、谷歌地图浏览插入等,静态版独特的生成算法技术使静态生成过程可随意掌控,从而可以大大减轻服务器的负担,结合多种强大的SEO优化方式于一体,使

下载

psycopg2库提供了psycopg2.extras.execute_values函数,它能够高效地构建一个包含多组VALUES的多行INSERT语句,并一次性发送给数据库。这比循环执行单行插入或简单的executemany(在某些情况下可能仍然分解为多个语句)效率更高。

实现示例:使用 psycopg2.extras.execute_values

import pandas as pd
import psycopg2
from psycopg2.extras import execute_values
from datetime import date

# 假设这是你的DataFrame数据
data = [
    (69370, 'subject', 'working', 1, date(2023, 12, 15)),
    (69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
    (69370, 'subject', 'intended', 1, date(2023, 12, 15)),
    (69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
    (69371, 'subject', 'ge', 2, date(2023, 12, 15)),
    (69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
    (69371, 'subject', 'flush', 1, date(2023, 12, 15)),
    (69371, 'subject', 'motion', 1, date(2023, 12, 15)),
    (69371, 'subject', 'led', 1, date(2023, 12, 15)),
    (69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
    (69371, 'subject', 'contact', 1, date(2023, 12, 15)),
    # ... 更多数据,假设有60万条记录
]
# 为了演示,我们生成更多数据
for i in range(100000): # 模拟大量数据
    data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))

df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])

# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'

conn = None
cur = None

try:
    conn = psycopg2.connect(
        host=REDSHIFT_HOST,
        database=REDSHIFT_DB,
        user=REDSHIFT_USER,
        password=REDSHIFT_PASSWORD,
        port=REDSHIFT_PORT
    )
    conn.autocommit = False # 确保在事务中操作
    print("成功连接到 RedShift")
    cur = conn.cursor()

    table_name = "odey.sfc_ca_sit_di"
    columns = "(case_id, column_name, split_text, split_text_cnt, load_ts)"

    # 将DataFrame转换为元组列表
    # 注意:日期对象需要被psycopg2正确处理,通常直接传递date对象即可
    rows_to_insert = [tuple(row) for row in df.itertuples(index=False)]

    # 定义批量大小,可以根据网络、数据库性能调整
    batch_size = 10000 
    total_inserted_rows = 0

    print(f"开始批量插入 {len(rows_to_insert)} 条记录...")
    for i in range(0, len(rows_to_insert), batch_size):
        batch = rows_to_insert[i:i + batch_size]
        sql = f"INSERT INTO {table_name} {columns} VALUES %s"
        execute_values(cur, sql, batch)
        total_inserted_rows += len(batch)
        print(f"已插入 {total_inserted_rows} / {len(rows_to_insert)} 条记录")

    conn.commit()
    print(f"所有 {total_inserted_rows} 条记录成功插入 (批量插入方式)")

except psycopg2.Error as e:
    if conn:
        conn.rollback()
    print(f"批量插入失败: {e}")
except Exception as e:
    print(f"发生未知错误: {e}")
finally:
    if cur:
        cur.close()
    if conn:
        conn.close()
    print("数据库连接已关闭。")

注意事项

  • 批量大小(batch_size):选择合适的批量大小至关重要。过小会增加数据库交互次数,过大可能导致单个SQL命令超过Redshift的16MB限制,或消耗过多内存。通常,几千到几万行是一个合理的起点,需要根据实际环境进行测试和调整。
  • 事务管理:务必在事务中执行批量插入,即在所有批次完成后统一commit(),如果任何批次失败则rollback()。这能保证数据的一致性。
  • 数据类型匹配:确保DataFrame中的数据类型与Redshift目标表的列类型严格匹配,否则可能导致插入失败。

方法二:Redshift COPY 命令(推荐的超高速方案)

对于真正大规模的数据加载(数百万行甚至TB级别),Redshift官方强烈推荐使用COPY命令。COPY命令是Redshift专门为高速数据加载设计的,它能够直接从Amazon S3、Amazon DynamoDB或Amazon EMR等数据源并行加载数据,效率远超任何基于SQL的INSERT方法。

其核心思想是:将DataFrame数据导出为文件(如CSV、Parquet),上传到Amazon S3,然后指示Redshift从S3读取这些文件并加载到表中。

工作流程

  1. DataFrame导出为文件:将Python DataFrame中的数据导出为CSV或Parquet格式的文件。对于大型数据集,建议将数据分割成多个小文件(例如,每个文件1GB左右),以充分利用Redshift的并行加载能力。
  2. 上传至Amazon S3:使用boto3库将这些文件上传到预配置的S3存储桶。
  3. 执行Redshift COPY命令:通过psycopg2连接Redshift,并执行COPY SQL命令,指定S3文件的位置、IAM角色、文件格式等参数。

实现示例:使用 Pandas, Boto3, Psycopg2

import pandas as pd
import boto3
import io
import psycopg2
from datetime import date
import os

# 假设这是你的DataFrame数据
data = [
    (69370, 'subject', 'working', 1, date(2023, 12, 15)),
    (69370, 'subject', 'scenes', 1, date(2023, 12, 15)),
    (69370, 'subject', 'intended', 1, date(2023, 12, 15)),
    (69371, 'subject', 'redirected', 1, date(2023, 12, 15)),
    (69371, 'subject', 'ge', 2, date(2023, 12, 15)),
    (69371, 'subject', 'sensor', 1, date(2023, 12, 15)),
    (69371, 'subject', 'flush', 1, date(2023, 12, 15)),
    (69371, 'subject', 'motion', 1, date(2023, 12, 15)),
    (69371, 'subject', 'led', 1, date(2023, 12, 15)),
    (69371, 'subject', 'fixture', 1, date(2023, 12, 15)),
    (69371, 'subject', 'contact', 1, date(2023, 12, 15)),
    # ... 更多数据
]
# 为了演示,我们生成更多数据 (约60万条)
for i in range(600000): 
    data.append((70000 + i, 'subject_new', f'text_{i}', i % 5 + 1, date(2023, 12, 15)))

df = pd.DataFrame(data, columns=['case_id', 'column_name', 'split_text', 'split_text_cnt', 'load_ts'])

# 将日期列转换为字符串,以匹配CSV格式
df['load_ts'] = df['load_ts'].astype(str)

# S3配置
S3_BUCKET_NAME = 'your-s3-bucket-for-redshift-data' # 替换为你的S3桶名
S3_KEY_PREFIX = 'redshift_temp_data/' # S3上的路径前缀
IAM_ROLE_ARN = 'arn:aws:iam::YOUR_ACCOUNT_ID:role/YourRedshiftIAMRole' # 替换为具有S3读权限的IAM角色ARN
AWS_REGION = 'us-east-1' # S3桶和Redshift集群所在的AWS区域

# Redshift连接参数
REDSHIFT_HOST = 'redshift-####-dev.00000.us-east-1.redshift.amazonaws.com'
REDSHIFT_DB = '*****'
REDSHIFT_USER = '****'
REDSHIFT_PASSWORD = '*****'
REDSHIFT_PORT = '5439'

conn = None
cur = None
s3_client = boto3.client('s3', region_name=AWS_REGION)

try:
    # 1. DataFrame导出为CSV并上传到S3
    print("开始将DataFrame导出为CSV并上传到S3...")
    file_name = f"data_{pd.Timestamp.now().strftime('%Y%m%d%H%M%S')}.csv"
    s3_full_key = S3_KEY_PREFIX + file_name

    csv_buffer = io.StringIO()
    # 注意:header=False, index=False 是COPY命令的常见要求
    df.to_csv(csv_buffer, index=False, header=False, sep=',', encoding='utf-8') 

    s3_client.put_object

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

758

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

548

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

708

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

42

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 2.9万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号