0

0

如何高效地将多币种时序数据按交易对分别追加保存为独立CSV文件

花韻仙語

花韻仙語

发布时间:2026-01-24 14:42:09

|

130人浏览过

|

来源于php中文网

原创

如何高效地将多币种时序数据按交易对分别追加保存为独立CSV文件

本文介绍使用pandas按`sym`列分组,将包含多个交易对(如ethusdt、idusdt)的ohlcv时序数据批量追加写入对应命名的csv文件,兼顾性能与可维护性。

在实时行情数据采集场景中(例如从Binance流式获取OHLCV),原始DataFrame常混杂多个交易对(sym)的数据,且时间戳(索引)高度离散。目标是将每个交易对的数据独立、持续、高效地追加保存到专属CSV文件(如ETHUSDT.csv、IDUSDT.csv),而非一次性全量导出或低效逐行遍历。

✅ 正确做法:按 sym 分组 + 批量追加写入

最核心的原则是:避免对单行循环调用 to_csv(如 for coin in df.sym:),这会导致大量I/O开销和重复文件打开/关闭。应先按交易对聚合数据块,再统一追加写入:

# 假设 df 是当前批次新获取的 OHLCV 数据(含 'sym', 'o', 'h', 'l', 'c', 'v', 'barcomplete' 等列)
for symbol, group in df.groupby('sym'):
    filename = f"{symbol}.csv"
    # mode='a' 表示追加;header=False 避免重复写入列名(仅首次需 header=True)
    group.to_csv(filename, mode='a', header=not os.path.exists(filename), index=True)
? 关键细节说明:groupby('sym') 按交易对精准切分数据,每组 group 是一个完整子DataFrame(含所有列和时间索引);header=not os.path.exists(filename) 确保首次创建文件时写入表头,后续追加时不重复写(比固定 header=False 更健壮);index=True 保留时间戳索引(即原始datetime),这是时序分析的关键;使用 rf"{symbol}.csv"(或 f"{symbol}.csv")直接拼接文件名,简洁安全。

⚠️ 常见误区与优化建议

  • ❌ 错误示例(低效且逻辑错误):

    稿定AI设计
    稿定AI设计

    AI自动去水印、背景消除、批量抠人像工具

    下载
    for coin in df.sym:  # 遍历的是单个值,非分组!且重复打开同一文件多次
        df['sym'].to_csv(f"{coin}.csv", mode='a', header=False)  # 只写了 'sym' 列,丢弃全部OHLCV数据!

    此写法不仅性能差,更会丢失o/h/l/c/v等核心字段,仅保存符号列。

  • ✅ 流式处理推荐模式(内存友好):
    若数据持续流入(如每秒一批),建议累积若干批次后再分组写入,减少磁盘IO频率:

    # 初始化空列表存储批次
    batch_dfs = []
    
    # 在数据获取循环中(例如 while True:)
    # new_df = fetch_binance_data()  # 获取新一批数据
    batch_dfs.append(new_df)
    
    # 每满 N 条或每 T 秒触发一次落盘
    if len(batch_dfs) >= 100:
        combined = pd.concat(batch_dfs, ignore_index=False)  # 保持原时间索引
        for symbol, group in combined.groupby('sym'):
            group.to_csv(f"{symbol}.csv", mode='a', 
                        header=not os.path.exists(f"{symbol}.csv"),
                        index=True)
        batch_dfs.clear()  # 清空已处理批次

? 总结

  • 核心方法:df.groupby('sym').apply(...) 或显式循环 for symbol, group in df.groupby('sym');
  • 性能关键:批量分组写入 > 单行循环写入;合理缓冲批次降低IO压力;
  • 健壮性要点:动态控制 header 参数、保留 index、校验文件路径合法性(建议添加 os.path.abspath() 或目录预创建);
  • 进阶提示:生产环境可考虑切换至Parquet(列存+压缩)或数据库(如SQLite)提升读写效率与查询能力。

通过以上方式,你既能准确分离多币种数据流,又能保证追加写入的效率与可靠性,为后续的量化分析打下坚实基础。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

356

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2076

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

348

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

255

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

325

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

411

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

408

2023.10.16

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 50.3万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号