0

0

Scrapy 中重构 parse 方法失效的原因与正确实践

花韻仙語

花韻仙語

发布时间:2026-02-06 22:49:14

|

915人浏览过

|

来源于php中文网

原创

Scrapy 中重构 parse 方法失效的原因与正确实践

scrapy 的 `parse` 方法必须显式 `yield` 所有后续请求,若将请求生成逻辑拆分为子函数但未逐层 `yield`,这些请求将被丢弃,导致爬虫停止递归抓取。

在 Scrapy 中,parse 方法不仅是数据解析入口,更是请求调度的唯一出口。其返回值(或 yield 产出)会被 Scrapy 引擎捕获并加入调度队列;任何未被 yield 的 scrapy.Request 对象都将被静默丢弃——这正是重构后代码失效的根本原因。

回顾原始有效代码:

def parse(self, response, **kwargs):
    yield ScrapyItem(...)  # ✅ 显式产出 Item
    for link in self.extract_links(response):
        yield scrapy.Request(...)  # ✅ 显式产出 Request → 进入队列

所有 Request 均由 parse 直接 yield,Scrapy 可完整感知并调度。

而重构后的错误版本中:

def parse(self, response, **kwargs):
    yield ScrapyItem(...)
    self.extract_and_follow_links(response)  # ❌ 仅调用,未 yield 返回值

def extract_and_follow_links(self, response):
    links = self.extract_links(response)
    return self.follow_links(response, links)  # ✅ 返回 generator,但未被消费

def follow_links(self, response, links):
    for link in links:
        yield scrapy.Request(...)  # ✅ generator 内部 yield,但外部未迭代

follow_links() 是一个生成器函数(generator function),它返回的是一个惰性迭代器对象,而非立即执行的请求列表。若不主动遍历该迭代器(如用 for req in gen: yield req)或直接 yield from gen,其中的 yield scrapy.Request(...) 永远不会触发,请求也就永远不会提交给 Scrapy 调度器。

✅ 正确修复方式有两种(推荐后者,更简洁清晰):

语鹦学舌
语鹦学舌

三步生成专属AI数字人分身,文字秒变视频

下载

方式一:显式循环 + yield

def parse(self, response, **kwargs):
    self.logger.info(f"Parse: Processing {response.url}")
    yield ScrapyItem(
        source=response.meta["source"],
        url=response.url,
        html=response.text,
    )
    # 关键:迭代并 yield 子函数返回的所有请求
    for request in self.extract_and_follow_links(response):
        yield request

def extract_and_follow_links(self, response):
    links = self.extract_links(response)
    self.logger.info(f"Extracted {len(links)} links from {response.url}")
    # TODO: Save links to database
    return self.follow_links(response, links)  # 返回 generator

def follow_links(self, response, links):
    self.logger.info(f"Following {len(links)} links from {response.url}")
    for link in links:
        self.logger.info(f"Following link: {link.url}")
        yield scrapy.Request(
            url=link.url,
            callback=self.parse,
            meta={"source": response.meta["source"]},
        )

方式二(推荐):使用 yield from(Python 3.3+)

def parse(self, response, **kwargs):
    self.logger.info(f"Parse: Processing {response.url}")
    yield ScrapyItem(
        source=response.meta["source"],
        url=response.url,
        html=response.text,
    )
    # 一行替代循环,语义更明确
    yield from self.extract_and_follow_links(response)

def extract_and_follow_links(self, response):
    links = self.extract_links(response)
    self.logger.info(f"Extracted {len(links)} links from {response.url}")
    # TODO: Save links to database
    yield from self.follow_links(response, links)  # 直接委托生成

def follow_links(self, response, links):
    self.logger.info(f"Following {len(links)} links from {response.url}")
    for link in links:
        self.logger.info(f"Following link: {link.url}")
        yield scrapy.Request(
            url=link.url,
            callback=self.parse,
            meta={"source": response.meta["source"]},
        )

⚠️ 注意事项:

  • Scrapy 不会自动“展开”嵌套生成器;yield 和 yield from 是显式传递控制权的必要语法。
  • 若在子函数中需同时处理 Item 和 Request(如先存链接再发请求),仍须确保所有 Request 最终由 parse 或其直接调用链 yield 出来。
  • 日志中看到 DropItem 并非因 parse 报错,而是因为 start_urls 页面成功产出 Item 后,无后续请求入队,Scrapy 认为任务结束,自然终止爬取。

总结:Scrapy 的请求流是严格基于 yield 链的显式数据流。重构时务必保持“生成器链”的完整性——每个中间函数若返回 generator,上层必须用 yield from 或显式迭代 yield 其产出,否则请求将永远停留在内存中,无法进入 Scrapy 的异步调度核心。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

774

2023.11.10

function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

486

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

164

2023.10.07

1688阿里巴巴货源平台入口与批发采购指南
1688阿里巴巴货源平台入口与批发采购指南

本专题整理了1688阿里巴巴批发进货平台的最新入口地址与在线采购指南,帮助用户快速找到官方网站入口,了解如何进行批发采购、货源选择以及厂家直销等功能,提升采购效率与平台使用体验。

74

2026.02.06

快手网页版入口与电脑端使用指南 快手官方短视频观看入口
快手网页版入口与电脑端使用指南 快手官方短视频观看入口

本专题汇总了快手网页版的最新入口地址和电脑版使用方法,详细提供快手官网直接访问链接、网页端操作教程,以及如何无需下载安装直接观看短视频的方式,帮助用户轻松浏览和观看快手短视频内容。

15

2026.02.06

C# 多线程与异步编程
C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧,包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目,帮助开发者掌握 如何在 C# 中构建高并发、低延迟的异步系统,提升应用性能和响应速度。

9

2026.02.06

Python 微服务架构与 FastAPI 框架
Python 微服务架构与 FastAPI 框架

本专题系统讲解 Python 微服务架构设计与 FastAPI 框架应用,涵盖 FastAPI 的快速开发、路由与依赖注入、数据模型验证、API 文档自动生成、OAuth2 与 JWT 身份验证、异步支持、部署与扩展等。通过实际案例,帮助学习者掌握 使用 FastAPI 构建高效、可扩展的微服务应用,提高服务响应速度与系统可维护性。

5

2026.02.06

JavaScript 异步编程与事件驱动架构
JavaScript 异步编程与事件驱动架构

本专题深入讲解 JavaScript 异步编程与事件驱动架构,涵盖 Promise、async/await、事件循环机制、回调函数、任务队列与微任务队列、以及如何设计高效的异步应用架构。通过多个实际示例,帮助开发者掌握 如何处理复杂异步操作,并利用事件驱动设计模式构建高效、响应式应用。

7

2026.02.06

java连接字符串方法汇总
java连接字符串方法汇总

本专题整合了java连接字符串教程合集,阅读专题下面的文章了解更多详细操作。

25

2026.02.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号