0

0

怎样用Python开发Scrapy插件?中间件编写

絕刀狂花

絕刀狂花

发布时间:2025-07-03 09:36:02

|

1014人浏览过

|

来源于php中文网

原创

scrapy中间件的工作原理是通过在请求和响应流中插入处理逻辑,实现对核心流程的控制与扩展。1. 请求流中,request会依次经过下载器中间件的process_request方法,优先级越高越早执行;2. 响应流中,response会倒序经过之前处理该请求的中间件的process_response方法;3. 异常发生时,process_exception方法会被调用,可进行错误处理或重试;4. 爬虫中间件作用于爬虫解析阶段,处理输入输出及异常。编写实用中间件的关键在于理解执行顺序、正确返回值、避免性能瓶颈,并通过日志和调试工具排查问题。

怎样用Python开发Scrapy插件?中间件编写

在Scrapy框架里,我们谈论“插件”时,最核心和常用的实现方式就是通过编写各种“中间件”——包括下载器中间件(Downloader Middleware)、爬虫中间件(Spider Middleware),以及处理数据流的Item Pipelines。它们就像是Scrapy工作流程中的一个个检查站或处理站,让你能在请求发出前、响应接收后、数据处理前等关键节点插入自己的逻辑,进行修改、过滤或增强。

怎样用Python开发Scrapy插件?中间件编写

解决方案

要开发一个Scrapy插件,通常意味着你要介入其核心的请求-响应生命周期,或者对爬取到的数据进行预处理。这其中,中间件无疑是最直接也最强大的工具。

怎样用Python开发Scrapy插件?中间件编写

一个基本的下载器中间件看起来是这样的:

立即学习Python免费学习笔记(深入)”;

# myproject/middlewares.py

from scrapy import signals
from scrapy.exceptions import IgnoreRequest
import logging

logger = logging.getLogger(__name__)

class MyCustomDownloaderMiddleware:
    # 这个方法在Scrapy启动时被调用,可以用来初始化一些资源
    @classmethod
    def from_crawler(cls, crawler):
        # 绑定信号,比如在爬虫关闭时做些清理工作
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    def spider_opened(self, spider):
        logger.info(f"Spider {spider.name} opened, my custom middleware is ready!")

    def spider_closed(self, spider):
        logger.info(f"Spider {spider.name} closed, my custom middleware is done!")

    # 处理请求的方法,请求通过这里发送给下载器
    def process_request(self, request, spider):
        # 你可以在这里修改请求头,添加代理,或者直接丢弃请求
        # 比如,给所有请求添加一个自定义的User-Agent
        request.headers['User-Agent'] = 'MyScrapyBot/1.0 (+http://www.example.com)'
        logger.debug(f"Processing request: {request.url} with custom UA")
        # 返回None或Request对象,Scrapy会继续处理
        # 如果返回Response对象,则跳过后续下载器和下载器中间件,直接交给爬虫处理
        # 如果抛出IgnoreRequest,则该请求被忽略
        return None

    # 处理响应的方法,响应从下载器返回给爬虫前会经过这里
    def process_response(self, request, response, spider):
        # 你可以在这里检查响应状态码,修改响应体,或者根据响应内容生成新的请求
        if response.status >= 400:
            logger.warning(f"Received bad response: {response.status} for {request.url}")
            # 也许可以根据情况返回一个新的Request,重新尝试
            # return request.copy()
        return response # 必须返回Request、Response或抛出异常

    # 处理请求或响应过程中发生异常的方法
    def process_exception(self, request, exception, spider):
        # 当下载器或process_request/process_response方法中抛出异常时被调用
        logger.error(f"Error processing {request.url}: {exception}")
        # 返回None则异常会被忽略,Scrapy继续处理
        # 返回Response则该响应被返回给爬虫
        # 返回Request则该请求被重新调度
        pass

然后,在你的settings.py文件中启用它:

怎样用Python开发Scrapy插件?中间件编写
# settings.py

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomDownloaderMiddleware': 543, # 数字越小,优先级越高
    # 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 如果要用自己的UA,可以禁用Scrapy自带的
}

# 爬虫中间件和Item Pipelines的启用方式类似
# SPIDER_MIDDLEWARES = {
#     'myproject.middlewares.MyCustomSpiderMiddleware': 543,
# }

# ITEM_PIPELINES = {
#     'myproject.pipelines.MyCustomPipeline': 300,
# }

这样,你的自定义逻辑就会在Scrapy的请求和响应流中生效了。中间件的强大之处在于它的可插拔性和对核心流程的深度介入能力,这让Scrapy的扩展性变得异常灵活。

Scrapy中间件的工作原理是什么?

说实话,Scrapy的中间件机制,我个人觉得是其设计中最精妙的部分之一。它巧妙地将复杂的爬取流程解耦成一系列可独立控制的“阶段”,每个阶段都能被中间件拦截和处理。想象一下Scrapy的工作流,它其实是一个请求(Request)从爬虫发出,经过下载器中间件处理,然后被下载器执行,得到响应(Response),响应再经过下载器中间件处理,最终回到爬虫进行解析的过程。

具体来说:

  1. 请求流 (Request Flow):当爬虫生成一个Request对象时,这个请求并不会直接发送给下载器。它会先经过一系列已启用的下载器中间件process_request方法。每个中间件都有机会修改请求、丢弃请求(通过抛出IgnoreRequest),甚至直接返回一个Response对象(跳过下载)。这个过程是按照DOWNLOADER_MIDDLEWARES中定义的优先级(数字越小,越早被处理)从高到低执行的。

  2. 响应流 (Response Flow):下载器获取到网页内容并生成Response对象后,这个响应也不是直接交给爬虫。它会倒序经过之前处理过请求的下载器中间件process_response方法。这里,你可以检查响应内容、状态码,或者根据响应生成新的请求。如果在这个过程中发生异常,比如网络错误,process_exception方法就会被调用,给你一个处理错误、重试请求的机会。

  3. 爬虫中间件 (Spider Middleware):这个有点不一样,它主要作用于爬虫处理请求和生成Item/新的Request的环节。当Response到达爬虫并被parse方法处理时,process_spider_input会被调用。爬虫生成Item或新的Request后,它们会通过process_spider_outputprocess_spider_exception方法。这对于处理特定爬虫逻辑、过滤输出或统一错误处理非常有用。

    斯摩派(smapie)企业建站程序
    斯摩派(smapie)企业建站程序

    一个让ASP程序轻松做最少的代码编写量,一般企业所需要的功能都有,参数设置,数据库管理,文件管理,数据初始化,生成HTML页面(这是为了某些客户需要静态页面的需求),页面管理(这里是为了网站中某些单页面需求而开发的,这里你在前台只要用sub_c.article(2) 这个2是这里的id号,也可以是在比如index.asp?id=2 是一样的效果)公告管理,友情链接,信息发布(这里有分类,分类是无限

    下载

理解这个“双向”的流程,尤其是优先级对执行顺序的影响,是编写高效中间件的关键。有时,我发现一个看似简单的功能,如果中间件的顺序不对,就会导致意想不到的结果,这真的需要花点时间去琢磨。

如何编写一个实用的Scrapy下载器中间件?

编写实用的下载器中间件,往往是为了解决爬虫在实际运行中遇到的反爬问题,或者为了增强爬虫的健壮性。一个非常经典的例子就是User-Agent轮换。很多网站会根据User-Agent来判断是否是爬虫,并采取不同的策略。

# myproject/middlewares.py (续)

import random

class UserAgentRotationMiddleware:
    def __init__(self, user_agents):
        self.user_agents = user_agents

    @classmethod
    def from_crawler(cls, crawler):
        # 从settings中获取User-Agent列表
        user_agents = crawler.settings.getlist('USER_AGENTS')
        if not user_agents:
            # 如果没有配置,可以使用默认的或者抛出错误
            user_agents = [
                'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36',
                'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15',
                'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36',
                # 更多User-Agent...
            ]
            crawler.logger.warning("USER_AGENTS not set in settings, using default list.")
        return cls(user_agents)

    def process_request(self, request, spider):
        # 每次请求时,随机选择一个User-Agent
        random_ua = random.choice(self.user_agents)
        request.headers['User-Agent'] = random_ua
        spider.logger.debug(f"Set User-Agent to: {random_ua} for {request.url}")
        return None # 继续Scrapy的默认处理流程

settings.py中:

# settings.py

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.UserAgentRotationMiddleware': 400, # 确保在其他可能修改UA的中间件之前或之后
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 禁用Scrapy自带的User-Agent中间件
}

USER_AGENTS = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15',
    'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36',
    'Mozilla/5.0 (iPhone; CPU iPhone OS 13_5 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Mobile/15E148 Safari/604.1',
    'Mozilla/5.0 (Linux; Android 10; SM-G973F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36',
]

这个中间件通过from_crawler方法从settings.py中读取User-Agent列表,并在每次请求发出前,随机选择一个User-Agent设置到请求头中。这在一定程度上能模拟真实用户的行为,降低被识别为爬虫的风险。当然,实际场景可能更复杂,比如需要根据不同的域名使用不同的User-Agent,或者结合代理IP轮换,但核心思路都是在process_request中对请求进行改造。

Scrapy中间件开发中常见的坑和调试技巧?

在开发Scrapy中间件的过程中,我个人踩过不少坑,也总结了一些调试经验。这玩意儿虽然强大,但稍不注意就可能让整个爬虫行为变得诡异。

一个最常见的“坑”就是返回值问题process_requestprocess_responseprocess_exception这几个方法对返回值类型有严格要求。比如process_request,如果你不返回任何东西(即return None),Scrapy会继续处理该请求。但如果你返回了一个Response对象,它就会跳过后续的下载器和下载器中间件,直接把这个Response交给爬虫。反之,如果你返回了错误的类型,或者忘记返回,整个流程就可能中断或行为异常。我记得有一次,因为一个中间件忘记了在特定条件下return request,导致所有请求都卡住了,花了老半天才定位到问题。

另一个让人头疼的是中间件的执行顺序DOWNLOADER_MIDDLEWARESSPIDER_MIDDLEWARES中的数字优先级决定了它们的执行顺序。数字越小,优先级越高,越早被处理。在请求流中,优先级高的中间件先执行process_request;在响应流中,优先级高的中间件的process_response反而会最后执行。如果你的多个中间件都修改了同一个请求头,或者依赖于前一个中间件的修改,那么这个顺序就至关重要。我通常会把修改请求的放在前面,处理响应的放在后面,但具体情况还得看实际需求。

性能问题也值得注意。中间件会在每个请求或响应上执行,如果你的中间件里有耗时的操作,比如复杂的正则匹配、大量的计算或者I/O操作,那么整个爬虫的效率都会受到影响。所以,尽量让中间件的逻辑保持简洁高效,避免在其中做过于“重”的工作。

至于调试技巧,最直接有效的就是日志(logging)。在中间件的关键位置,多打一些logger.debug()logger.info(),输出请求的URL、响应的状态码、修改后的请求头等信息。结合settings.pyLOG_LEVEL = 'DEBUG',你可以清晰地看到每个请求和响应在中间件中是如何被处理和变化的。

此外,Scrapy Shell也是个神器。当你遇到某个请求或响应行为异常时,可以在Scrapy Shell中手动构造请求,然后一步步模拟中间件的处理流程,观察其输出。这能帮你快速隔离问题,确定是中间件逻辑错误,还是Scrapy配置问题。

最后,别忘了异常处理。在process_exception中,你可以捕获并处理下载过程中可能出现的网络错误、DNS解析失败等问题。合理利用它来重试请求或记录错误,能大大提升爬虫的健壮性。一个健壮的爬虫,往往是在各种异常情况下都能优雅地恢复或降级。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是中间件
什么是中间件

中间件是一种软件组件,充当不兼容组件之间的桥梁,提供额外服务,例如集成异构系统、提供常用服务、提高应用程序性能,以及简化应用程序开发。想了解更多中间件的相关内容,可以阅读本专题下面的文章。

182

2024.05.11

Golang 中间件开发与微服务架构
Golang 中间件开发与微服务架构

本专题系统讲解 Golang 在微服务架构中的中间件开发,包括日志处理、限流与熔断、认证与授权、服务监控、API 网关设计等常见中间件功能的实现。通过实战项目,帮助开发者理解如何使用 Go 编写高效、可扩展的中间件组件,并在微服务环境中进行灵活部署与管理。

226

2025.12.18

免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

790

2023.11.10

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

412

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

143

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.5万人学习

Git 教程
Git 教程

共21课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号