0

0

如何自动化抓取 CoinCodex 交互式图表的历史数据用于机器学习特征工程

聖光之護

聖光之護

发布时间:2026-02-09 15:15:49

|

608人浏览过

|

来源于php中文网

原创

如何自动化抓取 CoinCodex 交互式图表的历史数据用于机器学习特征工程

本文介绍如何通过调用 coincodex 官方未公开但可直接访问的 api 端点,稳定获取加密货币市场总值等高频时序图表数据,并将其结构化为 pandas dataframe,支持批量扩展与定时采集。

CoinCodex 的交互式图表(如全币种总市值曲线)虽未提供公开文档化的 API,但其前端实际通过 https://coincodex.com/api/v1/assets/get_charts 接口动态加载数据。该接口无需认证密钥,仅需构造合理参数即可返回 JSON 格式的时序数据,非常适合自动化采集用于模型训练的特征数据。

以下是一个完整、可复用的 Python 示例:

import pandas as pd
import requests
from datetime import datetime

def fetch_chart_data(
    assets: str = "SUM_ALL_COINS",
    include: str = "market_cap",
    samples: str = "md",  # 'sm' (small), 'md' (medium), 'lg' (large) — controls point density
    charts: str = "ALL"
) -> pd.DataFrame:
    """
    从 CoinCodex 抓取指定资产的图表数据

    :param assets: 资产标识符,如 'BTC', 'ETH', 'SUM_ALL_COINS'
    :param include: 数据类型,如 'market_cap', 'price', 'volume'
    :param samples: 采样粒度(影响时间点数量),'md' 通常含 300+ 历史点
    :param charts: 图表类型,'ALL' 表示全部时间范围
    :return: 包含 Date, Value, Cap 列的 DataFrame(Cap 仅在 market_cap 场景下有效)
    """
    api_url = "https://coincodex.com/api/v1/assets/get_charts"

    # t 参数为时间戳(毫秒级),但实测该字段对响应无实质影响(服务端可能忽略或用作缓存键)
    # 可固定使用任意合法值(如当前时间戳)或省略(部分请求中可不传)
    params = {
        "charts": charts,
        "samples": samples,
        "assets": assets,
        "include": include,
        # "t": str(int(datetime.now().timestamp() * 1000))  # 可选:动态时间戳
    }

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }

    try:
        response = requests.get(api_url, params=params, headers=headers, timeout=15)
        response.raise_for_status()
        data = response.json()

        # 注意:响应结构为 {asset_id: {chart_type: [...data...]}},例如 data["SUM_ALL_COINS"]["ALL"]
        # 若请求多个 assets(逗号分隔),则需遍历;此处单 asset 简化处理
        if assets not in data:
            raise KeyError(f"Asset '{assets}' not found in API response. Available keys: {list(data.keys())}")

        chart_data = data[assets].get(charts, [])
        if not chart_data:
            raise ValueError(f"No chart data returned for assets='{assets}', charts='{charts}'")

        df = pd.DataFrame(chart_data, columns=["Date", "Value", "Cap"])
        df["Date"] = pd.to_datetime(df["Date"], unit="s")  # 时间戳单位为秒(非毫秒)
        return df.sort_values("Date").reset_index(drop=True)

    except requests.exceptions.RequestException as e:
        raise ConnectionError(f"Failed to fetch data from {api_url}: {e}") from e
    except (KeyError, ValueError, TypeError) as e:
        raise RuntimeError(f"Unexpected API response format: {e}") from e

# ✅ 使用示例:获取全币种总市值历史数据
df_marketcap = fetch_chart_data(
    assets="SUM_ALL_COINS",
    include="market_cap",
    samples="md"
)
print("✅ 全币种总市值(最近5条):")
print(df_marketcap.tail())

# ✅ 批量采集示例:多资产 + 多指标
for asset in ["BTC", "ETH", "SOL"]:
    try:
        df_price = fetch_chart_data(assets=asset, include="price", samples="md")
        print(f"\n? {asset} 价格数据形状: {df_price.shape}")
        # 可保存为 CSV 或写入数据库
        # df_price.to_csv(f"{asset}_price_history.csv", index=False)
    except Exception as e:
        print(f"⚠️  获取 {asset} 数据失败: {e}")

? 关键注意事项

SciMaster
SciMaster

全球首个通用型科研AI智能体

下载
  • 参数敏感性:assets 必须严格匹配 CoinCodex 内部 ID(如 "BTC" 而非 "bitcoin");可通过浏览器 Network 面板观察真实请求确认。
  • 时间戳单位:Date 字段为 Unix 秒级时间戳(不是毫秒),务必使用 unit="s" 解析。
  • 采样策略:samples=md 平衡精度与数据量(约 200–400 点);lg 更密集但可能触发限流,sm 过于稀疏(仅 ~50 点)。
  • 稳定性保障:添加 User-Agent 和超时设置;生产环境建议加入重试机制(如 tenacity 库)和错误日志。
  • 合规提醒:请遵守 CoinCodex robots.txt 及其 Terms of Service,避免高频请求(建议 ≥30 秒间隔),并注明数据来源。

通过该方法,你不仅能自动化获取单个图表数据,还可轻松封装为定时任务(如 Airflow 或 cron),持续构建高质量时序特征库,为价格预测、波动率建模等任务提供可靠数据基础。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

434

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

543

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

315

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

79

2025.09.10

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

73

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

3

2026.01.31

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1344

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

298

2025.10.17

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

125

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号