python - 爬虫获取所有数据的思路是什么-PHP中文网问答

讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

python - 爬虫获取所有数据的思路是什么

ringa_lee 2017-04-18 10:19:45

[Python讨论组]

0

6

940

举报

比如一个网站有下一页，我要怎么能把所有下一页爬完呢，用递归吗，递归深度不会有限制吗，初学，希望得到指点

ringa_lee

ringa_lee

全部回复(5)

大家讲道理2017-04-18 10:21:45 5楼

递归，消息队列，储存已经爬取的页面（redis, 数据库)

赞 +0

添加回复

巴扎黑

巴扎黑2017-04-18 10:21:45 4楼

如果你指的所有数据是一个小域名下的所有数据，并且你并不想细究原理，那就去学scrapy。

如果你指的所有数据是全网数据，并且想搞明白爬取时是广度优先还是深度优先等等原理，那首先你得有10000+服务器。

赞 +0

添加回复

怪我咯2017-04-18 10:21:45 3楼

如果是同一个网站，用递归爬去呀，同一个网站怎么会爬不完

赞 +0

添加回复

巴扎黑

巴扎黑2017-04-18 10:21:45 2楼

如果网站的结构是简单重复的，可以先分析页码url的规律，然后直接从第一页拿到总页数，然后手动构造出其他页的url。

赞 +0

添加回复

PHP中文网2017-04-18 10:21:45 1楼

首先大致说下爬取的思路,如果页面链接很简单,类似 www.xxx.com/post/1.html这种有规律可循的页面,可以写递归或者循环去爬取

如果页面链接是未知的,可以获取爬取的页面去解析标签的链接,然后继续爬取,在这一过程中,你需要将已经爬取过的链接存下来,爬新链接的时候去寻找一下是否之前爬取过,然后也是通过递归去爬取

爬取思路通过url爬取->解析爬取内容中新的url->通过url爬取->....->当爬取到一定数量或者很长一段时间没有新链接的时候跳出递归

最后在python界有一个很厉害的爬虫框架scrapy,基本上把爬虫常用套路全部都封装好了,稍微学习下就会了传送门

赞 +0

添加回复

专题推荐

更多>

热门话题

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部