0

0

Python API数据提取教程:理解循环与字典创建的缩进陷阱

DDD

DDD

发布时间:2025-11-30 13:36:22

|

734人浏览过

|

来源于php中文网

原创

python api数据提取教程:理解循环与字典创建的缩进陷阱

本文深入探讨了在Python中从嵌套API响应中提取数据时,因循环缩进不当导致字典追加不完整的问题。通过一个具体的PGA高尔夫赛事数据抓取案例,详细分析了错误原因,并提供了正确的代码结构和解决方案。教程强调了Python中缩进的重要性,指导读者如何确保在多层嵌套循环中正确构建并累加所有目标数据记录,最终生成完整的DataFrame。

在处理来自外部API的复杂JSON数据时,开发者经常需要遍历多层嵌套结构来提取所需信息。然而,不正确的代码缩进是导致数据丢失或不完整的一个常见陷阱。本教程将通过一个实际案例,详细剖析这一问题及其解决方案。

API数据提取与不完整的记录:问题场景

假设我们需要从ESPN的PGA高尔夫赛事API中获取所有参赛选手的信息。API返回的JSON数据结构通常是多层嵌套的,例如:events -> competitions -> competitors -> athlete。我们的目标是从中提取每个赛事(event)的ID、日期、名称以及所有参赛选手(playerName)。

初次尝试的代码可能如下所示,旨在遍历赛事和选手并收集数据:

立即学习Python免费学习笔记(深入)”;

import requests
import pandas as pd

# 定义API端点
api = 'https://site.web.api.espn.com/apis/site/v2/sports/golf/leaderboard?league=pga'

# 发送GET请求并获取JSON响应
response = requests.get(api)
data = response.json()

# 提取事件数据
events = data['events']

# 创建一个空列表来存储游戏数据
games = []

# 遍历每个事件并获取相关信息
for event in events:
    game_id = event['id']
    date = event['date']
    name = event['name']

    for competition in event['competitions']:
        for competitor in competition['competitors']:
            athlete = competitor['athlete']
            playerName = athlete['displayName'] # 每次循环都会更新playerName变量

    # 在循环外部创建字典并追加,此时playerName已是最后一个competitor的值
    game = {
        'game_id': game_id,
        'date': date,
        'name': name,
        'playerName': playerName
    }
    games.append(game)

# 转换为pandas DataFrame
df = pd.DataFrame(games)
print(df)

运行上述代码,我们可能会得到类似以下的结果:

     game_id               date        name playerName
0  401580329  2024-01-04T05:00Z  The Sentry  Sam Burns

从结果中可以看出,尽管API响应中包含多名选手,但最终的DataFrame中却只显示了最后一位选手的记录(例如 "Sam Burns"),并且每场赛事只有一条记录,这显然不是我们期望的。

Figma
Figma

Figma 是一款基于云端的 UI 设计工具,可以在线进行产品原型、设计、评审、交付等工作。

下载

问题分析:Python缩进与变量作用域的影响

出现上述问题的原因在于Python的缩进规则和变量作用域。在原始代码中:

  1. 最内层的 for competitor in competition['competitors']: 循环确实遍历了所有的 competitor,并且每次迭代都正确地更新了 playerName 变量。
  2. 然而,game 字典的创建和 games.append(game) 操作却被放置在 for competitor 循环的 外部
  3. 这意味着,对于每个 event,当 for competitor 循环结束后,playerName 变量将保留其在 最后一次 迭代中的值。
  4. 随后,game 字典只会被创建 一次,并使用这个最终的 playerName 值,然后被追加到 games 列表中。

因此,对于每个赛事,无论有多少参赛者,我们最终只会得到一条记录,其中包含该赛事下最后一个参赛者的信息。

解决方案:调整字典创建和追加的缩进

要解决这个问题,我们需要确保在每次遍历到新的 competitor 时,都创建一个新的 game 字典并将其追加到 games 列表中。这需要将 game 字典的创建和 games.append(game) 操作移动到 for competitor 循环的 内部,使其成为该循环的一部分。

以下是修正后的代码:

import requests
import pandas as pd

# 定义API端点
api = 'https://site.web.api.espn.com/apis/site/v2/sports/golf/leaderboard?league=pga'

# 发送GET请求并获取JSON响应
response = requests.get(api)
data = response.json()

# 提取事件数据
events = data['events']

# 创建一个空列表来存储游戏数据
games = []

# 遍历每个事件并获取相关信息
for event in events:
    game_id = event['id']
    date = event['date']
    name = event['name']

    for competition in event['competitions']:
        for competitor in competition['competitors']:
            athlete = competitor['athlete']
            playerName = athlete['displayName']

            # 关键修改:将字典创建和追加操作移到最内层循环内部
            game = {
                'game_id': game_id,
                'date': date,
                'name': name,
                'playerName': playerName
            }
            games.append(game) # 每次循环一个competitor,就创建一个字典并追加

# 转换为pandas DataFrame
df = pd.DataFrame(games)
print(df)

通过这次修改,每当代码遍历到一个新的 competitor 时,它都会立即创建一个包含当前 game_id、date、name 和 playerName 的字典,并将其添加到 games 列表中。这样,所有参赛者的信息都将被正确捕获和存储。

关键点与注意事项

  1. Python的缩进规则: Python使用缩进来定义代码块(如循环体、函数体、条件语句等)。理解这一点对于避免逻辑错误至关重要。错误的缩进不会导致语法错误,但会导致程序逻辑与预期不符。
  2. 嵌套循环中的数据累积: 当处理多层嵌套数据结构时,务必清楚在哪个循环层级创建和累积数据。如果需要为内层循环的每个元素生成一条记录,那么字典的创建和列表的追加操作就必须发生在最内层循环内部。
  3. 变量作用域: 变量的生命周期和作用域由其定义位置和缩进决定。在循环外部定义的变量在整个循环过程中保持不变,而在循环内部定义的变量则会在每次迭代时重新创建或更新。
  4. 调试技巧:
    • 使用 print() 语句: 在循环内部的关键位置打印变量的值,可以帮助你追踪数据流和变量状态。例如,在 playerName = athlete['displayName'] 之后立即 print(playerName),可以确认每个 competitor 的名字是否被正确获取。
    • 逐步调试器: 使用IDE(如VS Code、PyCharm)提供的调试器,可以逐行执行代码,观察变量的变化,从而更直观地发现问题。
    • 检查API响应结构: 在开始编码前,仔细检查API返回的JSON结构,明确数据路径,有助于规划循环和数据提取逻辑。

总结

在Python中处理API响应并提取嵌套数据时,正确理解和运用缩进是避免数据丢失的关键。本教程通过一个具体的案例,强调了将字典创建和列表追加操作放置在正确循环层级的重要性。掌握这些基本原则,将有助于你更高效、准确地处理复杂数据,构建健壮的数据处理流程。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

418

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

535

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

311

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.09.27

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

538

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

25

2026.01.06

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

22

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号