如何正确使用 Scrapy 爬取 Flipkart 商品数据（解决无响应问题）

碧海醫心

发布时间：2026-02-17 15:54:17

421人浏览过

来源于php中文网

原创

如何正确使用 Scrapy 爬取 Flipkart 商品数据（解决无响应问题）

本文详解 Scrapy 爬虫无法启动的根本原因——缺失 start_urls 或 start_requests，并提供可运行的修复方案、分页逻辑优化及反爬注意事项。

本文详解 scrapy 爬虫无法启动的根本原因——缺失 `start_urls` 或 `start_requests`，并提供可运行的修复方案、分页逻辑优化及反爬注意事项。

Scrapy 蜘蛛的执行起点由 start_urls 属性或自定义的 start_requests() 方法严格控制。若两者均未正确定义，Spider 将完全不发起任何请求，导致看似“运行成功”实则零输出——这正是原代码中 scrapy crawl flipkart 无任何抓取结果的核心原因。

原代码中将起始 URL 定义为 urls = [...]，但 Scrapy 框架仅识别 start_urls（列表类型）或 start_requests()（生成器方法）。urls 是一个普通属性，对框架无意义，因此整个爬虫处于“静默挂起”状态。

✅ 正确做法是：将 urls 改为 start_urls，并确保其为列表类型。同时，需修正分页逻辑——原代码中 next_page 在类体顶层被静态计算（此时 page_no=2 已固化），导致所有后续请求均指向第 2 页，且无法动态递增。应将分页逻辑移入 parse() 方法内部，实现真正的翻页迭代。

Synthesys

Synthesys是一家领先的AI虚拟媒体平台，用户只需点击几下鼠标就可以制作专业的AI画外音和AI视频

下载

以下是修复后的完整、可直接运行的 Spider 示例：

import scrapy

class FlipkartSpider(scrapy.Spider):
    name = 'flipkart'
    # ✅ 必须命名为 start_urls（Scrapy 内置识别）
    start_urls = [
        'https://www.flipkart.com/televisions/pr?sid=ckf%2Cczl&p[]=facets.brand%255B%255D%3DMi&otracker=categorytree&p[]=facets.serviceability[]%3Dtrue&p[]=facets.availability%255B%255D%3DExclude%2BOut%2Bof%2BStock&otracker=nmenu_sub_TVs%20%26%20Appliances_0_Mi'
    ]

    def parse(self, response):
        # 提取当前页商品
        for product in response.css("div._2kHMtA"):
            yield {
                'name': product.css("div._4rR01T::text").get(),
                'price': product.css('div._30jeq3._1_WHN1::text').get(),
                'rating': product.css("div._3LWZlK::text").get(),
            }

        # ✅ 动态生成下一页 URL（在 parse 中实时计算）
        current_page = response.url.split('page=')[-1]
        current_page_num = int(current_page) if 'page=' in response.url else 1
        next_page_num = current_page_num + 1

        # 翻页上限建议设为 10（Flipkart 通常仅展示前几页有效结果）
        if next_page_num <= 10:
            next_url = f"{response.url.split('&page=')[0]}&page={next_page_num}"
            yield scrapy.Request(url=next_url, callback=self.parse)

⚠️ 重要注意事项：

动态渲染与反爬：Flipkart 大量依赖 JavaScript 渲染商品数据，且部署了 User-Agent 检测、IP 频率限制及验证码机制。上述 CSS 选择器仅适用于页面静态 HTML（可能已失效）。生产环境强烈建议配合 scrapy-splash 或切换至 Playwright/Selenium 进行无头浏览器渲染。
Selector 健壮性：Flipkart 频繁更新 DOM 结构（如 _2kHMtA、_4rR01T 等类名），需定期校验并使用更稳定的定位方式（如 data-id 属性或 XPath）。
合规性提醒：请严格遵守 robots.txt（https://www.php.cn/link/4e707d76187a59849aa3ec1f2219a9aa）及《Flipkart 服务条款》，避免高频请求；商业用途务必获得官方授权。

总结：Scrapy 的 start_urls 是不可省略的启动契约，而非可选配置。掌握此基础机制，再结合动态分页、反爬适配与 Selector 维护，才能构建稳定可靠的电商数据采集流程。

相关标签:

scrapy dom 选择器 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Thymeleaf th:field 红色下划线警告的成因与正确用法详解下一篇：Thymeleaf th:field 冲突警告与表单绑定最佳实践

作者最新文章

HTML 表格中正确设置行列标题的完整指南

2026-02-17 09:24

有内鬼！《绝地潜兵2》玩家为保卫生化人而击杀队友

2026-02-17 09:29

Ursina 中的“灯光效果”真相：如何用投影着色器模拟光照

2026-02-17 09:37