使用 Scrapy 框架进行多线程网页链接抓取

霞舞

发布时间：2025-09-11 18:05:01

856人浏览过

来源于php中文网

原创

使用 scrapy 框架进行多线程网页链接抓取

本文将介绍如何使用 Scrapy 框架，以更简洁高效的方式从单个 URL 中提取所有链接，包括嵌套链接。Scrapy 提供了强大的多线程支持和易于使用的 API，能够简化网络爬虫的开发过程。我们将通过一个完整的示例代码，演示如何利用 Scrapy 抓取指定网站的所有链接，并将其保存到 CSV 文件中。

Scrapy 框架简介

Scrapy 是一个强大的 Python 爬虫框架，它内置了多线程支持，并提供了许多方便的功能，例如：

请求调度和处理： Scrapy 能够有效地管理请求队列，并自动处理重试、重定向等常见问题。
数据提取： Scrapy 提供了强大的选择器（Selector）机制，可以方便地从 HTML 或 XML 文档中提取数据。
数据存储： Scrapy 支持多种数据存储格式，例如 CSV、JSON、XML 等。

使用 Scrapy 抓取网页链接

以下是一个使用 Scrapy 抓取网页链接的示例代码：

import scrapy

class MySpider(scrapy.Spider):

    name = 'myspider'

    allowed_domains = ['www.tradeindia.com']

    start_urls = ['https://www.tradeindia.com/']

    def parse(self, response):
        print('\n>>> url:', response.url, '\n')

        links = response.css('a::attr(href)').extract()

        # create items which it will save in file `CSV`
        for url in links:
            yield {'url': url}

        # create requests with URL so it will process next pages
        for url in links:
            yield response.follow(url)

# --- run without project and save in `output.csv` ---

from scrapy.crawler import CrawlerProcess

c = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0',
    'CONCURRENT_REQUESTS': 10,  # default: 16
    #'RANDOMIZE_DOWNLOAD_DELAY': True,  # default: True
    'DOWNLOAD_DELAY': 2,  # delays between requests to simulate real human - from `0.5*delay` to `1.5*delay`
    #'LOG_LEVEL': 'INFO',       # less information on screen
    'FEEDS': {'output.csv': {'format': 'csv'}}, # save in file CSV, JSON or XML
})

c.crawl(MySpider)
c.start()

代码解释：

MySpider 类： 定义了一个名为 MySpider 的爬虫类，继承自 scrapy.Spider。
- name：爬虫的名称，用于在 Scrapy 中标识爬虫。
- allowed_domains：允许爬取的域名，防止爬虫爬取到其他网站。
- start_urls：爬虫启动时要爬取的 URL 列表。
- parse 方法：是 Scrapy 默认的回调函数，用于处理每个爬取到的页面。
parse 方法：
- response.css('a::attr(href)').extract()：使用 CSS 选择器提取页面中所有 <a> 标签的 href 属性值，返回一个链接列表。
- yield {'url': url}：将提取到的 URL 封装成一个字典，并使用 yield 关键字将其发送到 Scrapy 的数据管道（Pipeline）进行处理。这里创建item, 之后会保存到CSV文件中
- yield response.follow(url)：创建一个新的请求，用于爬取提取到的 URL。 response.follow 会自动处理相对 URL 和绝对 URL。
CrawlerProcess 类：

比格设计
比格设计是135编辑器旗下一款一站式、多场景、智能化的在线图片编辑器

下载
- USER_AGENT：设置 User-Agent，模拟浏览器访问，防止被网站屏蔽。
- CONCURRENT_REQUESTS：设置并发请求数，控制爬虫的速度。
- DOWNLOAD_DELAY：设置下载延迟，模拟真实用户行为，防止对服务器造成过大压力。
- FEEDS：配置数据输出格式和文件名。

运行代码：

将以上代码保存为 spider.py 文件，然后在命令行中运行以下命令：

python spider.py

运行后，Scrapy 将会从 https://www.tradeindia.com/ 开始爬取，提取所有链接，并将结果保存到名为 output.csv 的文件中。

注意事项

遵守 Robots.txt 协议： 在编写爬虫时，请务必遵守网站的 Robots.txt 协议，避免爬取不允许爬取的页面。
设置合理的下载延迟： 为了避免对目标网站造成过大的压力，建议设置合理的下载延迟，模拟真实用户的访问行为。
处理异常情况： 在爬取过程中，可能会遇到各种异常情况，例如网络错误、页面不存在等。建议在代码中添加适当的异常处理机制，保证爬虫的稳定性。
动态内容抓取： 如果需要抓取 JavaScript 动态生成的内容，可以考虑使用 Scrapy 与 Selenium 或 Puppeteer 等工具结合使用。

总结

Scrapy 是一个功能强大的 Python 爬虫框架，可以帮助你快速高效地抓取网页数据。通过学习本文，你应该能够使用 Scrapy 抓取指定网站的所有链接，并将其保存到文件中。希望本文能够帮助你更好地理解和使用 Scrapy 框架。

此外，Scrapy 还提供了 LinkExtractor 和 CrawlSpider 等更高级的功能，可以进一步简化爬虫的开发。建议你查阅 Scrapy 的官方文档，了解更多关于这些功能的用法。

Python Beautifulsoup怎么找元素_find()与find_all()按class/id过滤节点

如何精准提取政府网站正文内容并剔除冗余页眉文本

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：python中sorted()函数和列表的sort()方法有什么不同？下一篇：解决 dj-rest-auth 验证邮件 URL 错误问题

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

458

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23