0

0

分布式爬虫部署[通俗易懂]

星夢妙者

星夢妙者

发布时间:2025-09-04 08:19:24

|

737人浏览过

|

来源于php中文网

原创

大家好,又见面了,我是你们的朋友全栈君。

【服务器端】

1.下载redis ,Redis Desktop Managerredis。

2.修改配置文件(找到redis下的redis.windows.conf 双击打开,找到bind 并修改为0.0.0.0,然后 protected-mode “no”

3.打开cmd命令行 进入redis的安装目录,输入redis-server.exe redis.windows.conf 回车,保持程序一直开着。

分布式爬虫部署[通俗易懂]

如果不是这个界面,证明redis服务已经开启了,需要

redis-cli shutdown

重新输入一次redis-server.exe redis.windows.conf

4.主机开启redis服务之后,不要断开,切记!!! 进入redis安装目录,输入:redis-cli.exe -h 主机(或者别人的)ip地址(-p 端口号6379(可以不用写)),也可以直接redis-cli -h 主机ip 地址用来测试是否可以远程连接redis(如果回车之后没有出现如图效果,检查自己的bind是否修改以及redis服务是否被自己关闭)出现如下表示可以远程连接redis

分布式爬虫部署[通俗易懂]

如果想要操作数据库连接中指定数据库(默认的是数据库0),比如操作数据库5可以在命令行输入:redis-cli -h 192.168.0.1 -n 5

详情参考:Redis在命令行中操作指定数据库下的key – 简书

5在Redis Desktop Managerredis中创建连接,一定要HOST设置成本机的ip,不要是127.0.0.1,要不然分机程序一运行就会一直停顿。

6,向redis输入链接,lpush bole:start_urls 网址

模板:lpush redis_keys 网址

分布式爬虫部署[通俗易懂]

爬虫端部署】

爬虫分两种流派,一种是有规则的,一种是无规则的。运行方式各有不通。

AI封面生成器
AI封面生成器

专业的AI封面生成工具,支持小红书、公众号、小说、红包、视频封面等多种类型,一键生成高质量封面图片。

下载

共同点:setting.py

代码语言:javascript代码运行次数:0运行复制

LOG_LEVEL='DEBUG'USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'# Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'dushu_redis (+http://www.yourdomain.com)'#配置去重DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"#配置调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_PERSIST = True#setting.py ROBOTSTXT_OBEY=FalseDOWNLOAD_DELAY = 1REDIS_URL = 'redis://root:@192.168.0.105:6379/0'ITEM_PIPELINES = {    #'dushu_redis.pipelines.DushuRedisPipeline': 300,    'scrapy_redis.pipelines.RedisPipeline': 400,}

(1)【有规则的爬虫】这里一定要开启爬虫过滤 ,否则在有些版本,无法过滤

def make_requests_from_url(self, url): return scrapy.Request(url, dont_filter=False)

代码语言:javascript代码运行次数:0运行复制

import scrapyfrom scrapy.spiders import Rule#from scrapy_redis.spiders import RedisSpiderfrom scrapy.linkextractors import LinkExtractorfrom scrapy_redis.spiders import RedisCrawlSpiderclass GuoxueSpider(RedisCrawlSpider):    name = 'bole'    # start_urls = ['http://blog.jobbole.com/all-posts/']      # 添加键    redis_key = 'bole:start_urls'    rules = (        # follow all links        Rule(LinkExtractor(), callback='parse_page', follow=True),    )    def __init__(self, *args, **kwargs):        # Dynamically define the allowed domains list.        domain = kwargs.pop('domain', '')        self.allowed_domains = filter(None, domain.split(','))        super(GuoxueSpider, self).__init__(*args, **kwargs)    def make_requests_from_url(self, url):        return scrapy.Request(url, dont_filter=False)    def parse_page(self, response):        aa=response.css('title::text').extract_first()        print(aa)        return {            'name': response.css('title::text').extract_first(),            'url': response.url,        }

运行方式 在爬虫的根目录运行scrapy crawl 爬虫名

(2)【无规则的爬虫】

代码语言:javascript代码运行次数:0运行复制

from scrapy_redis.spiders import RedisSpiderclass GuoxuespiderSpider(RedisSpider):    """Spider that reads urls from redis queue (myspider:start_urls)."""    name = 'myspider'    redis_key = 'bole:start_urls'    def __init__(self, *args, **kwargs):        # Dynamically define the allowed domains list.        domain = kwargs.pop('domain', '')        self.allowed_domains = filter(None, domain.split(','))        super(GuoxuespiderSpider, self).__init__(*args, **kwargs)    def make_requests_from_url(self, url):        return scrapy.Request(url, dont_filter=False)    def parse(self, response):        aa=response.css('title::text').extract_first()        print(aa)        return {            'name': response.css('title::text').extract_first(),            'url': response.url,        }

运行方式:

分布式爬虫部署[通俗易懂]

Redis DeskTop Manager 使用教程 – King-DA – 博客园

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/213742.html原文链接:https://javaforall.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

404

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

250

2023.10.07

免费爬虫工具有哪些
免费爬虫工具有哪些

免费爬虫工具有Scrapy、Beautiful Soup、ParseHub、Octoparse、Webocton Scriptly、RoboBrowser和Goutte。更多关于免费爬虫工具的问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

789

2023.11.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

435

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

601

2023.08.10

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1431

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1164

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

834

2023.08.01

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号