0

0

如何使用 Pandas 将多符号时序数据高效分组并追加保存为独立 CSV 文件

花韻仙語

花韻仙語

发布时间:2026-01-24 11:35:10

|

746人浏览过

|

来源于php中文网

原创

如何使用 Pandas 将多符号时序数据高效分组并追加保存为独立 CSV 文件

本文详解如何基于 symbol 列将动态流式 ohlcv 数据按币种分组,并以追加模式(`mode='a'`)高效写入对应 csv 文件(如 ethusdt.csv、idusdt.csv),避免逐行低效操作,兼顾性能与可维护性。

在实时行情数据采集场景中(例如从 Binance 拉取 OHLCV 流),常会得到一个包含多个交易对(如 ETHUSDT、IDUSDT、ICPUSDT)混合时间序列的 DataFrame,其索引为精确到毫秒的时间戳,sym 列标识币种。目标是:将每个币种的所有历史记录分别持久化到独立 CSV 文件,并支持后续新数据持续追加

直接遍历 df.sym(如 for coin in df.sym:)并调用 to_csv 是严重错误的做法——它会为每一行重复打开/写入同一文件,造成 I/O 瓶颈且逻辑混乱(例如 ETHUSDT 出现多次,却未聚合其所有行)。正确方式是先按 sym 分组,再对每组整体写入

✅ 推荐方案:groupby + to_csv(mode='a')

for symbol, group in df.groupby('sym'):
    filename = f"{symbol}.csv"
    # 首次写入需带表头;后续追加不带表头,且确保 index=True 保留时间戳
    group.to_csv(filename, mode='a', header=not os.path.exists(filename), index=True)
⚠️ 关键细节: header=not os.path.exists(filename) 确保首次创建文件时写入列名,后续追加跳过表头,避免 CSV 错乱; index=True(默认)保留原始时间戳索引,这是时序分析的关键; 使用 f"{symbol}.csv" 而非 rf"{}.csv".format(...),更简洁安全。

? 常见误区修正

原代码 df['sym'].to_csv(...) 错误地只导出 sym 这一列,丢失了 o/h/l/c/v/barcomplete 等全部价格与成交量字段。务必传入完整分组 group(即 g)。

IBM Watson
IBM Watson

IBM Watson文字转语音

下载

? 批量处理优化(适用于高频写入)

若数据以小批次(如每秒一批)持续流入,建议先累积多批次再统一分组写入,减少磁盘 I/O 次数:

import pandas as pd
import os

# 初始化空列表存储各批次
all_batches = []

# 模拟循环获取新数据(实际中替换为你的 fetch 逻辑)
for _ in range(10):  # 假设10批
    new_df = fetch_ohlcv_batch()  # 返回含 sym/o/h/l/c/v/barcomplete 的 DataFrame
    all_batches.append(new_df)

# 一次性合并 + 分组写入
if all_batches:
    full_df = pd.concat(all_batches, ignore_index=False)  # 保持原始时间索引
    for symbol, group in full_df.groupby('sym'):
        filename = f"{symbol}.csv"
        group.to_csv(filename, mode='a', header=not os.path.exists(filename), index=True)

? 进阶提示

  • 文件锁与并发安全:若多进程写入同一 CSV,需引入文件锁(如 filelock 库),但通常单进程流式写入已足够;
  • 格式一致性:建议在首次写入时显式指定 date_format='%Y-%m-%d %H:%M:%S.%f' 和 float_format='%.8f',保证数值精度与时间格式统一;
  • 替代方案:对海量数据,考虑切换至 Parquet(列存、压缩率高)或数据库(如 DuckDB),CSV 仅作轻量归档。

通过 groupby 精准切分 + mode='a' 智能追加,你既能保证每个币种数据物理隔离、结构清晰,又能获得远超逐行操作的 I/O 效率——这是构建稳健量化数据管道的基础实践。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

699

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

431

2024.06.27

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

356

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2076

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

348

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

255

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

324

2023.10.09

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 50.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号