- 简介:
enginecrawler 主要在 linux 系统上运行,用于抓取国内外主流搜索引擎返回的 url 内容。与 windows 上的搜索引擎爬虫工具相比,linux 上的选择较少。由于我的电脑是 kali linux,无法运行 windows 软件,我便自行开发了这个小工具。开发这个工具的初衷是,在为厂商进行测试时,发现了一个 web 应用程序的通用型漏洞,需要根据 url 的特征值采集大量 url 并进行批量测试。手动复制粘贴 url 非常繁琐,这时这个工具就大显身手了。
该工具利用多进程并发来提升网页抓取的效率,并且可以自定义模块添加到工具中。目前支持的搜索引擎包括:百度、谷歌、雅虎、Ecosia、Teoma、360、Hotbot。支持直接使用百度或谷歌的高级搜索语法进行搜索。谷歌搜索引擎无需访问国外网站,抓取的数据来自我搭建的谷歌镜像站。
- 依赖:
pip install -r requirements.txt
- 使用方法:
选项:
-h, --help 显示此帮助信息并退出
-r RULE, --rule RULE 引擎高级搜索规则
-p PAGE, --page PAGE 搜索引擎返回的页面数
-e ENGINES, --engines ENGINES
指定以逗号分隔的搜索引擎列表
-o OUTPUT, --output OUTPUT
将结果保存到文本文件中
示例:python EngineCrawler.py -e baidu,yahoo -r 'inurl:php?id=1' -p 10 -o urls.txt
- 截图:
如果代码有任何不足之处,欢迎提出宝贵意见~
GitHub 项目地址:https://www.php.cn/link/eca85870ec8b6d70a888d143988d8a4b










