如何解决网页爬虫中因HTML结构误判导致的NaN链接值问题

心靈之曲

发布时间：2026-02-21 11:08:01

152人浏览过

来源于php中文网

原创

如何解决网页爬虫中因HTML结构误判导致的NaN链接值问题

本文详解在使用BeautifulSoup爬取球员数据时，因错误定位href属性位置而产生NaN值的根本原因，并提供可直接运行的修复代码及关键注意事项。

本文详解在使用beautifulsoup爬取球员数据时，因错误定位`href`属性位置而产生nan值的根本原因，并提供可直接运行的修复代码及关键注意事项。

在网页爬虫实践中，NaN（Not a Number）值常被误认为是数据缺失或网络异常所致，但实际多数情况下源于对HTML DOM结构的误解——尤其是混淆了属性所在元素层级。以爬取 EliteProspects 网站NHL球员统计表为例，开发者试图从标签中直接提取 href 属性，却忽略了该属性实际存在于其内部的标签中。由于 span.get("href") 永远返回 None，Pandas 在赋值时自动将其转换为 NaN，导致“玩家主页链接”列全为空。

以下为修正后的完整流程（基于原始代码优化）：

import requests
from bs4 import BeautifulSoup
import pandas as pd

start_url = 'https://www.eliteprospects.com/league/nhl/stats/2023-2024'
r = requests.get(start_url, timeout=10)
r.raise_for_status()  # 显式抛出HTTP错误，便于调试

soup = BeautifulSoup(r.content, "html.parser")
table = soup.find("table", class_="table table-striped table-sortable player-stats highlight-stats season")

# 提取表头（去重并清理换行符）
headers = [th.get_text(strip=True) for th in table.find_all("th")]
df = pd.DataFrame(columns=headers)

# 构建基础数据行
rows = table.find_all("tr")[1:]  # 跳过表头行
for row in rows:
    tds = row.find_all("td")
    if len(tds) == len(headers):  # 防止空行或结构异常
        data = [td.get_text(strip=True) for td in tds]
        df.loc[len(df)] = data

# ✅ 关键修复：正确提取玩家链接与姓名
df["Player_URL"] = None  # 预先添加列，避免SettingWithCopyWarning

for span in table.find_all("span", class_="txt-blue"):
    a_tag = span.find("a")
    if a_tag and a_tag.has_attr("href"):
        player_name = a_tag.get_text(strip=True)
        player_url = a_tag["href"]
        # 注意：需处理球员名中的括号和空格（如"Nikita Kucherov (RW)" → 匹配时需一致）
        # 此处假设df.Player已含完整显示名（含位置），否则需标准化
        mask = df["Player"] == player_name
        if mask.any():
            df.loc[mask, "Player_URL"] = player_url

# 数据清洗：统一去除换行与首尾空格
df = df.replace(r'\n+', ' ', regex=True)  # 替换多个换行符为单空格
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)

print(df[["Player", "Team", "GP", "G", "A", "TP", "Player_URL"]].head())

? 核心注意事项：

通塔师AI导航

通塔师AI导航：专业的AI人工智能工具软件导航网站

下载

层级意识优先：永远先用浏览器开发者工具（F12）检查目标链接的真实DOM路径。Name 中，href 属于，而非。
防御性编程：添加 if a_tag and a_tag.has_attr("href") 判断，避免 None.get() 报错；使用 mask.any() 确保匹配存在，防止 df.loc[[], ...] 引发隐式错误。
名称匹配需严格一致：表格中 Player 列文本（如 "Connor McDavid (C)"）必须与标签内纯文本完全一致。若页面后续改用缩写或移除位置信息，需同步调整清洗逻辑（例如正则提取姓名主体：re.sub(r'\s*$.*?$$', '', player_name)）。
请求健壮性：加入 timeout 和 raise_for_status()，避免因网络延迟或403/404导致静默失败。
扩展性提示：若需批量抓取多赛季/多联赛，建议封装为函数，配合 time.sleep() 控制请求频率，并使用 try...except 包裹单次请求，确保部分失败不影响整体流程。

通过厘清HTML语义结构、强化数据清洗与异常防护，即可彻底规避此类“看似有数据、实则全NaN”的典型陷阱，为后续获取身高、体重等深层信息（需二次请求玩家个人页）奠定可靠基础。

立即学习“前端免费学习笔记（深入）”；

如何使用 Requests-HTML 精确提取指定 class 的超链接

Django模板中动态插入Google Maps嵌入链接失败的原因与解决方案

如何使用 Selenium 通过文本内容定位并点击动态类名的元素

如何抓取动态加载的马拉松成绩数据：从 iframe 中提取 HTML 表格

python源码github_Star数高、活跃度强的热门Python仓库推荐与克隆

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

html 爬虫 beautifulsoup pandas if 封装 try class number dom href

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 中 open() 函数对整数参数的特殊处理机制详解下一篇：动态类型声明：为运行时创建的属性提供类型提示

作者最新文章

Ext JS 单元格编辑中禁用方向键自动增减数值并实现上下单元格跳转

2026-02-19 15:41

如何通过 AJAX GET 请求将 HTML 元素内容安全传递给 PHP 文件

2026-02-19 16:07

任天堂展望未来在院线电影和视频领域的深耕布局

2026-02-19 16:07

如何在不修改源码的前提下精准提示工厂函数返回的子类类型

2026-02-19 16:19

MongoDB 聚合中 group 后字段名为 _id 的正确映射与投影处理

2026-02-19 16:24

Go 中如何在嵌入结构体中调用被嵌入类型的方法（含 nil 接收器调用技巧）

2026-02-19 17:10

PHP 中如何持久化表单提交后的数组状态？

2026-02-19 17:22

如何正确实现数组线性查找并避免重复输出“未找到”提示

2026-02-19 17:27

统一容器内文字与数量标签的对齐布局：解决因文本长度差异导致的错位问题

2026-02-19 17:34

MongoDB 聚合中 group() 后字段映射错误的解决方案

2026-02-19 17:35

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

826

2023.08.22

class在c语言中的意思

在C语言中，"class" 是一个关键字，用于定义一个类。想了解更多class的相关内容，可以阅读本专题下面的文章。

686

2024.01.03

python中class的含义

本专题整合了python中class的相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.06

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

3810

2024.08.14

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式，涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明，帮助用户高效找到pixiv官方网站，实现便捷、安全的网页端浏览与账号登录体验。

776

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式，涵盖首页直达地址、账号登录流程与常见访问问题说明，帮助用户快速找到微博官网主页，实现便捷、安全的网页端登录与内容浏览体验。

247

2026.02.13

热门下载

网站特效

网站源码

网站素材

前端模板