0

0

Scrapy 中跨解析函数传递变量的正确方法

碧海醫心

碧海醫心

发布时间:2026-01-15 20:27:10

|

797人浏览过

|

来源于php中文网

原创

Scrapy 中跨解析函数传递变量的正确方法

在 scrapy 中,局部变量无法直接在不同回调函数(如 parse → parse_date → parse_race)间共享;需通过 self 将其设为实例属性,才能在后续回调中安全访问。

在 Scrapy 爬虫中,每个 yield scrapy.Request(..., callback=xxx) 触发的回调函数都是独立执行的协程,彼此不共享作用域。你代码中定义的 scrapedate 是 parse() 函数内的局部变量,仅在其函数体内有效;当执行到 parse_race() 时,该变量早已超出作用域,因此抛出 NameError: name 'scrapedate' is not defined。

✅ 正确做法是:将 scrapedate 提升为爬虫实例的属性(attribute),通过 self.scrapedate 在整个爬虫生命周期内维护和传递上下文信息。

以下是修正后的关键代码段(已整合逻辑并增强健壮性):

LongCat AI
LongCat AI

美团推出的AI对话问答工具

下载
import scrapy
from datetime import datetime, timedelta
from dogscraper.items import DogItem

racedate = '2024-01-25'
days = 2
realdate = datetime.strptime(racedate, '%Y-%m-%d').date()
scrape_list = [(realdate - timedelta(days=x)).strftime('%Y-%m-%d') for x in range(days)]

class DogspiderSpider(scrapy.Spider):
    name = "dogspider"
    allowed_domains = ["www.thedogs.com.au"]
    # start_urls 可省略,因我们动态生成初始请求
    start_urls = []

    def start_requests(self):
        # 更规范地初始化首批请求(替代硬编码 start_urls)
        for scrapedate in scrape_list:
            url = f"https://www.thedogs.com.au/racing/{scrapedate}"
            yield scrapy.Request(url, callback=self.parse_date, cb_kwargs={'scrapedate': scrapedate})

    def parse_date(self, response, scrapedate):
        # 使用 cb_kwargs 传递参数,比 self 属性更清晰、线程安全、无状态污染
        try:
            nswmeetings = response.css('table.meeting-grid')[0]
            venues = nswmeetings.css('td.meetings-venues__name a::attr(href)').getall()
            for venue_url in venues:
                full_url = response.urljoin(venue_url)
                yield scrapy.Request(
                    full_url,
                    callback=self.parse_meeting,
                    cb_kwargs={'scrapedate': scrapedate}
                )
        except IndexError:
            self.logger.warning(f"No meeting grid found for date {scrapedate}")

    def parse_meeting(self, response, scrapedate):
        race_links = response.css('a.race-box.race-box--result::attr(href)').getall()
        for race_url in race_links:
            full_url = response.urljoin(race_url)
            yield scrapy.Request(
                full_url,
                callback=self.parse_race,
                cb_kwargs={'scrapedate': scrapedate}
            )

    def parse_race(self, response, scrapedate):
        dogs = response.css('tr.accordion__anchor.race-runner')
        for dog in dogs:
            dog_item = DogItem()
            dog_item['date'] = scrapedate  # ✅ 安全获取日期
            # 补充其他字段提取逻辑(如 name, time, position 等)
            # dog_item['name'] = dog.css('td:nth-child(2)::text').get().strip()
            yield dog_item

? 关键改进说明:

  • 推荐使用 cb_kwargs:Scrapy 原生支持通过 cb_kwargs 向回调函数传递任意关键字参数,语义清晰、线程安全、避免实例属性被并发请求意外覆盖(尤其在 CONCURRENT_REQUESTS > 1 时)。
  • ❌ 避免 self.scrapedate = ... 方式:在高并发下,多个 parse() 迭代可能竞争修改同一属性,导致 parse_race() 读取到错误的日期。
  • ✅ start_requests() 替代 start_urls:更灵活地控制初始请求构造与参数绑定。
  • ✅ response.urljoin():确保链接拼接兼容相对路径,提升鲁棒性。
  • ✅ 添加异常处理:防止因页面结构变化(如无 meeting-grid)导致整个爬虫中断。

? 总结:Scrapy 的回调链本质是异步事件流,不要依赖局部变量跨回调传递数据。始终优先使用 cb_kwargs 传递轻量上下文(如日期、ID、分类标签等);若需共享复杂状态(如会话 token、计数器),再谨慎设计线程安全的实例属性或使用 meta 字典(但 cb_kwargs 更简洁、类型友好)。

相关专题

更多
免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

766

2023.11.10

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6101

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

810

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1063

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1269

2024.03.01

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

482

2023.08.10

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

11

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

4

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网
无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证(CAAC执照)报考需年满16周岁,初中以上学历,身体健康(矫正视力1.0以上,无严重疾病),且无犯罪记录。个人需通过民航局授权的训练机构报名,经理论(法规、原理)、模拟飞行、实操(GPS/姿态模式)及地面站训练后考试合格,通常15-25天拿证。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

CSS教程
CSS教程

共754课时 | 21.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号