Scrapy爬虫返回空数组的解决方案

心靈之曲

发布时间：2025-07-12 16:26:01

826人浏览过

来源于php中文网

原创

scrapy爬虫返回空数组的解决方案

本文旨在解决Scrapy爬虫抓取网页数据时，XPath表达式返回空数组的问题。通过分析tbody标签的特性，提出绕过该标签直接定位所需数据行的解决方案，并提供示例代码和注意事项，帮助开发者有效应对类似情况。

在使用Scrapy进行网页数据抓取时，有时会遇到XPath表达式返回空数组的情况，导致无法获取目标数据。这通常是由于网页结构与预期不符造成的。一个常见的原因是，某些HTML元素（如tbody）是由浏览器动态添加的，在原始HTML源码中并不存在。

问题分析：tbody标签的特性

tbody标签用于在HTML表格中组合表格主体内容。然而，许多网页在编写时并未显式包含tbody标签，浏览器在渲染页面时会自动添加该标签。因此，当使用Scrapy抓取此类网页时，直接使用包含tbody的XPath表达式可能会导致无法找到对应的元素，从而返回空数组。

例如，假设要抓取CVE数据库中HP相关的漏洞信息，目标网页的表格结构如下：

<div id="TableWithRules">
  <table>
    <!-- thead -->
    <thead>
      <tr>
        <th>Header 1</th>
        <th>Header 2</th>
      </tr>
    </thead>
    <!-- tbody (可能由浏览器动态添加) -->
    <tbody>
      <tr>
        <td>Data 1</td>
        <td>Data 2</td>
      </tr>
      <!-- 更多行 -->
    </tbody>
  </table>
</div>

如果直接使用//div[@id='TableWithRules']//tbody/tr这样的XPath表达式，很可能无法找到tbody标签，导致返回空数组。

解决方案：绕过tbody标签

为了解决这个问题，可以绕过tbody标签，直接定位到表格行tr元素。

以下是两种可行的解决方案：

直接定位所有行： 使用//div[@id='TableWithRules']//tr直接选取TableWithRules下的所有tr元素。

import scrapy

class HPSpider(scrapy.Spider):
    name = "hp_spider"
    start_urls = ['https://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=hp']

    def parse(self, response):
        rows = response.xpath("//div[@id='TableWithRules']//tr")
        print(f"Total rows found: {len(rows)}")
        for row in rows:
            # 处理每一行的数据
            pass

这种方法会选取包括表头在内的所有行，需要根据实际情况进行过滤。

聚好用AI

可免费AI绘图、AI音乐、AI视频创作，聚集全球顶级AI，一站式创意平台

下载

排除表头行： 如果需要排除表头行，可以使用//div[@id='TableWithRules']//tr[td]选取包含td子元素的tr元素。

import scrapy

class HPSpider(scrapy.Spider):
    name = "hp_spider"
    start_urls = ['https://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=hp']

    def parse(self, response):
        rows = response.xpath("//div[@id='TableWithRules']//tr[td]")
        print(f"Data rows found: {len(rows)}")
        for row in rows:
            # 处理每一行的数据
            pass

这种方法通过判断tr元素是否包含td子元素来排除表头行。

使用Scrapy Shell进行调试

在编写Scrapy爬虫时，可以使用Scrapy Shell进行调试，验证XPath表达式的正确性。

启动Scrapy Shell：

scrapy shell https://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=hp

在Shell中测试XPath表达式：

>>> rows = response.xpath("//div[@id='TableWithRules']//tr")
>>> len(rows)
# 输出行数
>>> rows = response.xpath("//div[@id='TableWithRules']//tr[td]")
>>> len(rows)
# 输出数据行数

注意事项

在编写XPath表达式时，要仔细分析网页结构，注意动态添加的HTML元素。
使用Scrapy Shell进行调试，验证XPath表达式的正确性。
根据实际需求，选择合适的XPath表达式，过滤不需要的数据行。
某些网站可能会采取反爬虫措施，需要根据情况调整爬虫策略。

总结

当Scrapy爬虫返回空数组时，需要仔细分析网页结构，检查XPath表达式是否正确。对于tbody等可能由浏览器动态添加的HTML元素，可以尝试绕过这些元素，直接定位到目标数据。通过合理的XPath表达式和调试，可以有效地解决Scrapy爬虫返回空数组的问题。

Django静态文件怎么配_STATIC_URL与STATICFILES_DIRS配置

Python爬虫怎么登录_POST提交表单数据与处理重定向验证码登录逻辑

Python怎么操作浏览器_Selenium自动化测试环境配置与全自动网页点击操作

Flask请求流程解析_WSGI原理

Python爬虫怎么用Playwright_比Selenium更快的现代浏览器自动化框架实战

相关标签:

浏览器 html元素 scrapy tbody td tr 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用 Scrapy 抓取网页时返回空数组的解决方案下一篇：使用Keras数据生成器进行流式训练时张量大小不匹配的错误排查与解决

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

免费爬虫工具有哪些

790

2023.11.10

免费爬虫工具有哪些

790

2023.11.10

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

390

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2112

2023.08.14