0

0

如何在网页爬虫中正确提取超链接并避免 NaN 值

霞舞

霞舞

发布时间:2026-02-20 22:19:00

|

499人浏览过

|

来源于php中文网

原创

如何在网页爬虫中正确提取超链接并避免 NaN 值

本文详解在使用 BeautifulSoup 爬取 EliteProspects 球员统计表格时,为何 Player_URL 列持续返回 NaN,并提供可复用的修复方案:定位嵌套 标签、预清洗字段、安全匹配名称,确保链接准确注入 DataFrame。

本文详解在使用 beautifulsoup 爬取 eliteprospects 球员统计表格时,为何 `player_url` 列持续返回 nan,并提供可复用的修复方案:定位嵌套 `eliteprospects nhl 2023–2024 统计页 为例,许多开发者尝试通过 提取球员个人主页链接,却始终得到 nan —— 根本原因在于: 元素自身不含 href 属性,真正的链接藏在其内部的 标签中

以下是一个精简、健壮且可直接运行的修复版本(基于原代码优化):

import requests
from bs4 import BeautifulSoup
import pandas as pd

start_url = 'https://www.php.cn/link/8641afa4db7421c9eeaf01260d8afefe'
r = requests.get(start_url, timeout=10)
r.raise_for_status()  # 显式检查 HTTP 错误

soup = BeautifulSoup(r.content, "html.parser")
table = soup.find("table", class_="table table-striped table-sortable player-stats highlight-stats season")

# 提取表头(自动去重 & 清洗)
headers = [th.get_text(strip=True) for th in table.find_all("th")]
df = pd.DataFrame(columns=headers)

# 构建基础数据行(跳过表头行)
for row in table.find_all("tr")[1:]:
    cells = row.find_all(["td", "th"])
    if len(cells) < len(headers):  # 跳过无效行(如分组标题)
        continue
    row_data = [cell.get_text(strip=True).replace('\n', ' ') for cell in cells]
    df.loc[len(df)] = row_data

# ✅ 关键修复:正确提取 Player_URL
df["Player_URL"] = None  # 显式初始化列,避免 SettingWithCopyWarning

for span in table.find_all("span", class_="txt-blue"):
    a_tag = span.find("a")
    if not a_tag or not a_tag.get("href") or not a_tag.get_text(strip=True):
        continue
    player_name = a_tag.get_text(strip=True)
    player_url = a_tag["href"]

    # 安全匹配:df.Player 可能含括号/空格等干扰,需统一清洗
    cleaned_names = df["Player"].str.strip().str.replace(r'\s+', ' ', regex=True)
    match_mask = cleaned_names == player_name

    if match_mask.any():
        df.loc[match_mask, "Player_URL"] = player_url

# 后处理:全局清洗(推荐在填充 URL 后执行,避免干扰字符串匹配)
df = df.replace(r'\s+', ' ', regex=True).applymap(
    lambda x: x.strip() if isinstance(x, str) else x
)

print(df[["Player", "Team", "GP", "G", "A", "TP", "Player_URL"]].head())

⚠️ 关键注意事项与最佳实践

  • 不要直接操作 span.get("href"):HTML 中 John Doe 是典型嵌套结构,href 属于 ,而非
  • 名称匹配前必须清洗:原始 Player 列常含换行符(\n)、多余空格或括号(如 "Connor McDavid (C)"),而链接文本通常为 "Connor McDavid"。务必在 df.Player == name 前对双方做 strip() 和正则清理。
  • 避免未定义变量:原代码中 name 未声明即使用,属运行时错误;应从 a_tag.text 动态提取。
  • 防御性编程不可少:添加 if not a_tag: 检查、r.raise_for_status() 和 timeout,防止因网络波动或 DOM 变更导致脚本静默失败。
  • 列初始化显式化:使用 df["Player_URL"] = None 而非依赖 .loc[] 自动创建,提升可读性与稳定性。

? 扩展提示:若需批量爬取多赛季(2007–2023)或多联赛,建议将上述逻辑封装为函数 scrape_season(league, season),配合 time.sleep(1) 遵守 robots.txt,并用 requests.Session() 复用连接提升效率。球员身高体重等深层字段,则需对 Player_URL 发起二次请求,在个人页中解析对应

XiaoHu.AI
XiaoHu.AI

由小互建立的一个AI资讯、教程、课程、工具以及开源项目案例的平台。

下载
/
结构——此时同样适用本教程的核心原则:逐层定位标签、清洗再匹配、异常必兜底

通过理解 HTML 结构本质而非盲目套用选择器,你不仅能解决当前的 NaN 问题,更能构建出鲁棒、可维护的爬虫管线。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

824

2023.08.22

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

329

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

773

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

666

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

22

2025.12.06

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

3802

2024.08.14

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

796

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号