0

0

如何使用 Requests-HTML 精确提取指定 class 的超链接

碧海醫心

碧海醫心

发布时间:2026-02-08 13:02:38

|

893人浏览过

|

来源于php中文网

原创

如何使用 Requests-HTML 精确提取指定 class 的超链接

本文介绍如何利用 requests-html 库通过 css 选择器精准定位并提取具有特定 class(如 `class="in-match"`)的 `` 标签中的 `href` 属性值,避免抓取无关链接,提升网页解析效率与准确性。

在网页数据采集实践中,常需从大量 HTML 链接中筛选出符合业务逻辑的特定目标链接(例如仅抓取“比赛详情页”对应的 )。原代码中直接调用 r.html.links 会返回页面中所有唯一 href 值(含导航栏、分页、广告等非目标链接),缺乏结构化控制,易引入噪声或遗漏关键路径。

Requests-HTML 提供了强大且简洁的 CSS 选择器支持(基于 PyQuery),推荐使用 find() 方法替代 links 属性,实现按标签语义精准提取。针对示例 HTML 中 的需求,正确做法是:

from requests_html import HTMLSession

matchlink = 'https://www.betexplorer.com/football/algeria/ligue-1/results/'

session = HTMLSession()
r = session.get(matchlink)
# 关键:使用 CSS 选择器定位带 in-match 类的 a 标签
anchor_elements = r.html.find('a.in-match')

match_urls = []
for elem in anchor_elements:
    href = elem.attrs.get('href')
    if href:  # 防御性检查:确保 href 存在且非空
        # 补全为绝对 URL(因原始 href 多为相对路径)
        full_url = 'https://www.betexplorer.com' + href
        match_urls.append(full_url)
        print(full_url)

print(f"\n共提取 {len(match_urls)} 个 in-match 链接")

核心优势说明:

  • r.html.find('a.in-match') 返回的是 Element 对象列表,每个对象完整保留 DOM 结构与属性,可安全访问 elem.attrs['href'];
  • 相比 r.html.links(全局去重、无上下文),该方式严格遵循 HTML 结构,确保只匹配目标 标签,不受其他 href(如
  • 支持复杂选择器组合,例如 'td.h-text-left a.in-match' 可进一步限定父容器,增强鲁棒性。

⚠️ 注意事项:

DeepSider
DeepSider

浏览器AI侧边栏对话插件,集成多个AI大模型

下载

立即学习前端免费学习笔记(深入)”;

  • 若目标页面依赖 JavaScript 渲染(如动态加载赛程),需调用 r.html.render() 后再执行 find();
  • href 属性可能为相对路径(如 /football/https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c),务必根据实际域名拼接为绝对 URL,否则后续请求将失败;
  • 建议添加 try/except 或 attrs.get('href') 防御空值,避免因 HTML 结构异常导致 KeyError;
  • 频繁创建 HTMLSession() 实例(如循环内新建 session)会显著降低性能,应复用单个 session 实例。

综上,精准提取本质是从“获取全部链接”转向“查询目标元素”。掌握 find() + CSS 选择器这一范式,不仅能解决 class="in-match" 场景,还可灵活适配 id、data-* 属性、嵌套关系等各类结构化提取需求,是构建稳定、可维护爬虫的关键基础能力。

相关文章

HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

321

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

766

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

95

2025.08.19

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

536

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

18

2025.12.06

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

3551

2024.08.14

iframe写法有哪些
iframe写法有哪些

iframe写法有基本Iframe写法、嵌套Iframe写法、自适应宽高的Iframe写法、带有样式和属性的Iframe写法、内联Iframe写法和使用JavaScript动态创建Iframe写法。种写法都有自己的特点和适用场景。根据实际需求,选择合适的写法可以实现所需的功能和效果。

486

2023.10.19

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

35

2026.02.06

java多线程方法汇总
java多线程方法汇总

本专题整合了java多线程面试题、实现函数、执行并发相关内容,阅读专题下面的文章了解更多详细内容。

15

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.2万人学习

CSS教程
CSS教程

共754课时 | 28.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号