使用Python爬取GBGB赛狗结果：按日期范围和赛道筛选数据

霞舞

发布时间：2025-12-03 12:26:02

433人浏览过

来源于php中文网

原创

使用Python爬取GBGB赛狗结果：按日期范围和赛道筛选数据

本教程详细介绍了如何使用python从gbgb（great british greyhound board）网站的api接口高效爬取赛狗比赛结果。我们将学习如何通过构建动态日期范围参数来批量获取数据，并进一步根据特定赛道名称进行筛选，最终将爬取到的结构化数据保存为json文件，避免了手动输入大量url的繁琐。

1. 引言与API概览

在进行数据抓取时，手动构造大量特定ID的URL是一种低效且容易出错的方法。针对GBGB（Great British Greyhound Board）赛狗结果的爬取，其官方API提供了一个更为便捷的接口，允许我们通过日期范围和分页参数来获取数据。本教程将指导您如何利用 https://api.gbgb.org.uk/api/results 这一通用API端点，结合Python的 requests 库，实现按指定日期范围和赛道名称筛选比赛结果。

该API端点支持以下关键查询参数：

page: 当前页码。
itemsPerPage: 每页返回的条目数量。
date: 查询的具体日期，格式为 YYYY-MM-DD。
race_type: 比赛类型，通常为 race。

通过动态调整这些参数，我们可以灵活地获取所需数据。

2. 环境准备与基础配置

在开始之前，请确保您的Python环境中已安装 requests 库。如果尚未安装，可以通过以下命令进行安装：

立即学习“Python免费学习笔记（深入）”；

pip install requests

接下来，我们需要导入必要的库并设置API请求的基础URL和默认参数：

Woy AI

通过 Woy.ai AI 导航站发现 2024 年顶尖的 AI 工具！

下载

import requests
import json
from datetime import datetime, timedelta

# 用于存储所有抓取到的数据的列表
json_list = []

# GBGB API的基础URL
base_url = "https://api.gbgb.org.uk/api/results"

# API请求的默认参数
params = {
    'page': '1',             # 默认从第一页开始
    'itemsPerPage': '200',   # 每页返回200条数据，可根据需求调整
    'race_type': 'race'      # 筛选比赛类型为“race”
}

# 设定您希望筛选的赛道名称
desired_track = "Swindon" # 例如，筛选“Swindon”赛道的结果

3. 动态构建日期范围并发送请求

为了避免手动输入每个日期的URL，我们可以利用Python的日期时间模块来生成一个日期范围。本示例将演示如何遍历指定的月份和日期，动态更新API请求中的 date 参数。

# 设定要爬取的年份
target_year = 2023

# 设定要爬取的月份范围 (例如，从10月到12月)
# range(start_month, end_month + 1)
for month in range(10, 12 + 1):
    # 根据月份计算当月的天数
    # 简化处理：2月28天，4/6/9/11月30天，其他31天
    # 更精确的计算应考虑闰年，但此处为示例目的简化
    if month == 2:
        get_days_in_month = 28
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    # 遍历当月的所有日期
    for day in range(1, get_days_in_month + 1):
        # 格式化日期字符串为 YYYY-MM-DD
        # 使用 f-string 和 :02d 格式化月份和日期为两位数，例如 01, 02
        params['date'] = f'{target_year}-{month:02d}-{day:02d}'
        print(f"正在请求日期: {params['date']}")

        try:
            # 使用 requests.get 发送HTTP GET请求，并带上参数
            response = requests.get(base_url, params=params)
            # 检查请求是否成功（HTTP状态码200）
            response.raise_for_status()

            # 将JSON响应转换为Python字典
            page_context_dict = response.json()
            # 从响应中提取实际的数据列表
            items = page_context_dict.get('items', [])

            # 如果需要，可以分页获取所有数据，但本示例假设itemsPerPage足够大，一次性获取
            # 如果itemsPerPage不足以获取一天所有数据，需要根据page_context_dict中的总页数进行循环

            # 筛选特定赛道的数据
            specific_track_items = []
            for item in items:
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            # 将筛选后的数据添加到总列表中
            json_list.extend(specific_track_items)

        except requests.exceptions.HTTPError as errh:
            print(f"HTTP 错误 ({params['date']}): {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"连接错误 ({params['date']}): {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"请求超时 ({params['date']}): {errt}")
        except requests.exceptions.RequestException as err:
            print(f"请求异常 ({params['date']}): {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON解析错误 ({params['date']}): {json_err}")
        except Exception as e:
            print(f"发生未知错误 ({params['date']}): {e}")

4. 错误处理与数据存储

在网络请求中，错误处理至关重要。上述代码包含了针对HTTP错误、连接错误、超时以及JSON解析错误的 try-except 块，确保脚本的健壮性。

所有筛选后的数据将累积到 json_list 列表中。在所有日期范围的请求完成后，我们将这些数据一次性写入一个JSON文件。

# 循环结束后，将所有收集到的数据写入一个JSON文件
output_filename = f'{desired_track}_results.json'
with open(output_filename, 'w', encoding='utf-8') as f:
    # 使用json.dump将Python列表写入JSON文件
    # ensure_ascii=False 确保中文字符正常显示
    # indent=4 使输出的JSON文件格式化，更易读
    json.dump(json_list, f, ensure_ascii=False, indent=4)

print(f"数据抓取完成，共收集到 {len(json_list)} 条记录，已保存到 {output_filename}")

5. 完整代码示例

将上述所有代码片段整合，形成一个完整的Python脚本：

import requests
import json
from datetime import datetime, timedelta

# 用于存储所有抓取到的数据的列表
json_list = []

# GBGB API的基础URL
base_url = "https://api.gbgb.org.uk/api/results"

# API请求的默认参数
params = {
    'page': '1',             # 默认从第一页开始
    'itemsPerPage': '200',   # 每页返回200条数据，可根据需求调整
    'race_type': 'race'      # 筛选比赛类型为“race”
}

# 设定您希望筛选的赛道名称
desired_track = "Swindon" # 例如，筛选“Swindon”赛道的结果

# 设定要爬取的年份
target_year = 2023

# 设定要爬取的月份范围 (例如，从10月到12月)
# range(start_month, end_month + 1)
for month in range(10, 12 + 1):
    # 根据月份计算当月的天数
    # 简化处理：2月28天，4/6/9/11月30天，其他31天
    # 更精确的计算应考虑闰年，但此处为示例目的简化
    if month == 2:
        get_days_in_month = 28
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    # 遍历当月的所有日期
    for day in range(1, get_days_in_month + 1):
        # 格式化日期字符串为 YYYY-MM-DD
        params['date'] = f'{target_year}-{month:02d}-{day:02d}'
        print(f"正在请求日期: {params['date']}")

        try:
            # 使用 requests.get 发送HTTP GET请求，并带上参数
            response = requests.get(base_url, params=params)
            # 检查请求是否成功（HTTP状态码200）
            response.raise_for_status()

            # 将JSON响应转换为Python字典
            page_context_dict = response.json()
            # 从响应中提取实际的数据列表
            items = page_context_dict.get('items', [])

            # 筛选特定赛道的数据
            specific_track_items = []
            for item in items:
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            # 将筛选后的数据添加到总列表中
            json_list.extend(specific_track_items)

        except requests.exceptions.HTTPError as errh:
            print(f"HTTP 错误 ({params['date']}): {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"连接错误 ({params['date']}): {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"请求超时 ({params['date']}): {errt}")
        except requests.exceptions.RequestException as err:
            print(f"请求异常 ({params['date']}): {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON解析错误 ({params['date']}): {json_err}")
        except Exception as e:
            print(f"发生未知错误 ({params['date']}): {e}")

# 循环结束后，将所有收集到的数据写入一个JSON文件
output_filename = f'{desired_track}_results.json'
with open(output_filename, 'w', encoding='utf-8') as f:
    json.dump(json_list, f, ensure_ascii=False, indent=4)

print(f"数据抓取完成，共收集到 {len(json_list)} 条记录，已保存到 {output_filename}")

6. 注意事项与总结

速率限制 (Rate Limiting)：频繁的API请求可能会触发服务器的速率限制，导致请求被拒绝。如果遇到此类问题，可以考虑在每次请求之间添加 time.sleep() 来引入延迟。
动态年份与日期范围：本教程中的年份和月份范围是硬编码的。在实际应用中，您可能需要让这些参数更加灵活，例如通过用户输入或从配置文件读取。
itemsPerPage 参数：itemsPerPage 参数决定了每次请求返回的条目数量。如果一天的数据量超过此值，您需要通过递增 page 参数来循环获取所有分页数据。API响应通常会包含总页数或总条目数的信息，可以据此进行分页逻辑的实现。
API文档：虽然本教程基于现有信息进行爬取，但查阅官方API文档（如果可用）是最佳实践，可以了解更多参数、限制和数据结构。
数据结构：GBGB API返回的JSON数据结构通常包含比赛的详细信息，如 trackName、raceId、meetingId、参赛狗信息、结果等。您可以根据需求进一步解析和提取这些数据。