0

0

使用 Scrapy 进行多线程网页爬取以提取链接

DDD

DDD

发布时间:2025-09-11 17:46:01

|

694人浏览过

|

来源于php中文网

原创

使用 scrapy 进行多线程网页爬取以提取链接

本文将介绍如何使用 Python 的 Scrapy 框架,高效地从单个 URL 中提取所有链接,包括嵌套的链接。Scrapy 提供了强大的多线程爬取能力,简化了网页爬取任务,避免了手动管理线程的复杂性。我们将通过一个简单的示例,展示如何配置 Scrapy 并提取目标网页上的所有链接,并将其保存到 CSV 文件中。

Scrapy 简介

Scrapy 是一个强大的 Python 框架,用于大规模网页抓取。它内置了多线程支持,并且提供了许多方便的功能,例如自动处理请求和响应、数据提取和数据存储。与手动编写多线程代码相比,Scrapy 可以显著简化爬虫的开发过程。

安装 Scrapy

首先,需要安装 Scrapy。可以使用 pip 命令进行安装:

pip install scrapy

创建 Scrapy 爬虫

Scrapy 爬虫的核心是定义如何从网页中提取数据,以及如何跟踪链接并继续爬取。以下是一个简单的 Scrapy 爬虫示例,用于从 https://www.tradeindia.com/ 提取所有链接:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['www.tradeindia.com']
    start_urls = ['https://www.tradeindia.com/']

    def parse(self, response):
        print('\n>>> url:', response.url, '\n')

        links = response.css('a::attr(href)').extract()

        # 创建 item,用于保存到 CSV 文件
        for url in links:
            yield {'url': url}

        # 创建请求,用于跟踪链接并继续爬取
        for url in links:
            yield response.follow(url)

代码解释:

  • name: 爬虫的名称,必须唯一。
  • allowed_domains: 允许爬取的域名,防止爬虫爬到其他网站。
  • start_urls: 爬虫启动时要爬取的 URL 列表。
  • parse(self, response): Scrapy 用来处理下载的 response 的回调函数。response 对象包含了页面的内容。
    • response.css('a::attr(href)').extract(): 使用 CSS 选择器提取所有 标签的 href 属性。
    • yield {'url': url}: 将提取的 URL 作为 item 产出。Scrapy 会自动将这些 item 保存到指定的文件中。
    • yield response.follow(url): 创建一个新的请求,用于爬取提取的 URL。response.follow 会自动处理相对 URL。

运行 Scrapy 爬虫

为了运行爬虫,需要创建一个 CrawlerProcess 实例,并配置一些参数。以下是如何在不创建 Scrapy 项目的情况下运行爬虫的示例代码:

艺帆集团公司企业网站源码1.7.5
艺帆集团公司企业网站源码1.7.5

艺帆集团公司企业网站源码基于艺帆企业cms制作,全站div+css 制作;它包含了单页设置、单页分类设置、新闻、产品、下载、在线招聘、在线留言、幻灯管理、友情链接管理和数据库备份等功能。 DIV+CSS布局优势一.精简代码,减少重构难度。网站使用DIV+CSS布局使代码很是精简,相信大多朋友也都略有所闻,css文件可以在网站的任意一个页面进行调用,而若是使用table表格修改部分页面却是显得很麻烦

下载
from scrapy.crawler import CrawlerProcess

c = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0',
    'CONCURRENT_REQUESTS': 10,  # 默认值: 16
    #'RANDOMIZE_DOWNLOAD_DELAY': True,  # 默认值: True
    'DOWNLOAD_DELAY': 2,  # 模拟真实用户,设置请求之间的延迟 (0.5*delay 到 1.5*delay)
    #'LOG_LEVEL': 'INFO',       # 减少屏幕上的信息输出
    'FEEDS': {'output.csv': {'format': 'csv'}}, # 将结果保存到 CSV 文件
})

c.crawl(MySpider)
c.start()

代码解释:

  • USER_AGENT: 设置 User-Agent,模拟浏览器访问。
  • CONCURRENT_REQUESTS: 设置并发请求的数量。
  • DOWNLOAD_DELAY: 设置请求之间的延迟,防止被网站封禁。
  • FEEDS: 配置数据导出,这里配置将数据导出到 output.csv 文件。

将以上代码保存为一个 Python 文件(例如 spider.py),然后在命令行中运行:

python spider.py

Scrapy 将会开始爬取 https://www.tradeindia.com/,提取所有链接,并将结果保存到 output.csv 文件中。

Scrapy 的其他特性

Scrapy 还提供了许多其他特性,例如:

  • LinkExtractor: 用于更灵活地提取链接。
  • CrawlSpider: 一个用于创建爬虫的基类,它提供了一些默认的爬取规则。
  • Item Pipeline: 用于处理提取的数据,例如数据清洗、验证和存储。
  • Middleware: 用于处理请求和响应,例如添加请求头、处理重定向和处理错误。

注意事项

  • 遵守 robots.txt 协议: 在爬取网站之前,请务必查看该网站的 robots.txt 文件,了解哪些页面可以爬取,哪些页面不可以爬取。
  • 设置合理的下载延迟: 为了避免给网站带来过大的压力,请设置合理的下载延迟。
  • 处理异常: 在爬取过程中,可能会遇到各种异常,例如网络错误、页面不存在等。请务必处理这些异常,防止爬虫崩溃。
  • 避免被封禁: 为了避免被网站封禁,请模拟真实用户的行为,例如设置 User-Agent、使用代理 IP 等。

总结

Scrapy 是一个功能强大的网页爬取框架,它提供了多线程支持和许多方便的功能,可以显著简化爬虫的开发过程。通过本文的介绍,你应该能够使用 Scrapy 提取网页上的所有链接,并将其保存到 CSV 文件中。希望本教程能帮助你更好地使用 Scrapy 进行网页爬取。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

772

2023.11.10

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

415

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

503

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

166

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

15

2026.01.21

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 25万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号