0

0

URL抓取工具

php中文网

php中文网

发布时间:2016-07-25 08:48:11

|

1409人浏览过

|

来源于php中文网

原创

有需要csdn免积分下载、pudn免积分下载、51cto免积分,请到http://www.itziy.com/
命令行下执行,直接php调用将显示使用方式
功能说明
1.支持代理
2.支持设置递归检查次数
3.支持输出类型控制、检查内容控制

作用:
主要代替肉眼尽量多的抓取可能的请求包及url地址等,方便渗透测试
  1. error_reporting(E_ERROR | E_WARNING | E_PARSE);
  2. ini_set('memory_limit','1024M');
  3. set_time_limit(0);
  4. define('CHECK_A_TAG', false);
  5. define('CHECK_JS_TAG', true);
  6. define('CHECK_URL', true);
  7. define('SAVE_ERROR', true);
  8. $checkArr = array(
  9. '$.load',
  10. '.ajax',
  11. '$.post',
  12. '$.get',
  13. '.getJSON'
  14. );
  15. if ($argc
  16. die(showerror('sorry, parameter error', array('example: php debug.php url num filename header proxy', 'detail information:', 'url: target url address which you want to check it', 'num: The number of pages of recursive,default 3', 'filename: output filename default name ret.txt', 'header: The request header file default null', 'proxy: if you want to use proxy set it here default no use proxy')));
  17. if (!check_extension())
  18. die(showerror('extension curl not support', 'please open php curl extension support'));
  19. //global variable
  20. $url = trim($argv[1]);
  21. if (stripos($url, 'http') === false)
  22. $url = 'http://'.$url;
  23. $num = isset($argv[2]) ? intval($argv[2]) : 3;
  24. $output = isset($argv[3]) ? trim(str_replace("\", '/', $argv[3])) : str_replace("\", '/', dirname(__FILE__)).'/ret.txt';
  25. $header = null;
  26. $proxy = null;
  27. $host = null;
  28. if (isset($argv[4]))
  29. {
  30. $header = trim(str_replace("\", '/', $argv[4]));
  31. if (file_exists($header))
  32. $header = array_filter(explode(" ", str_replace(" ", '', file_get_contents($header))));
  33. else
  34. {
  35. $file = str_replace("\", '/', dirname(__FILE__)).'/'.$header;
  36. if (file_exists($file))
  37. $header = array_filter(explode(" ", str_replace(" ", '', file_get_contents($file))));
  38. else
  39. $header = null;
  40. }
  41. }
  42. if (isset($argv[5]))
  43. $proxy = trim($argv[5]);
  44. if (!is_array($header) || empty($header))
  45. $header = null;
  46. $result = check_valid_url($url);
  47. $outputArr = array();
  48. if (!empty($result))
  49. {
  50. $result = str_replace(" ", '', $result);
  51. $result = str_replace(" ", '', $result);
  52. $tmpArr = parse_url($url);
  53. if (!isset($tmpArr['host']))
  54. die(showerror('parse url error', 'can not get host form url: '.$url));
  55. $host = $tmpArr['host'];
  56. if (stripos($host, 'http') === false)
  57. $host = 'http://'.$host;
  58. unset($tmpArr);
  59. //check for current page
  60. if (!isset($outputArr[md5($url)]))
  61. {
  62. $outputArr[md5($url)] = $url;
  63. file_put_contents($output, $url." ", FILE_APPEND);
  64. echo 'url: ',$url,' find ajax require so save it',PHP_EOL;
  65. }
  66. work($result);
  67. }
  68. echo 'run finish',PHP_EOL;
  69. function work($result, $reverse = false)
  70. {
  71. global $num, $host, $outputArr, $checkArr, $output;
  72. if (!$result)
  73. return;
  74. $result = str_replace(" ", '', $result);
  75. $result = str_replace(" ", '', $result);
  76. while ($num > 0)
  77. {
  78. echo 'remain: ',$num,' now start to check for url address',PHP_EOL,PHP_EOL;
  79. preg_match_all('//i', $result, $match);
  80. if (CHECK_A_TAG && isset($match[2]) && !empty($match[2]))
  81. {
  82. foreach ($match[2] as $mc)
  83. {
  84. $mc = trim($mc);
  85. if ($mc == '#')
  86. continue;
  87. if (stripos($mc, 'http') === false)
  88. $mc = $host.$mc;
  89. if (($ret = check_valid_url($mc)))
  90. {
  91. if (!isset($outputArr[md5($mc)]))
  92. {
  93. $outputArr[md5($mc)] = $mc;
  94. file_put_contents($output, $mc." ", FILE_APPEND);
  95. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  96. }
  97. }
  98. }
  99. }
  100. //check for page url
  101. echo 'remain: ',$num,' now start to check for page url',PHP_EOL,PHP_EOL;
  102. preg_match_all('/(https?|ftp|mms)://([A-z0-9]+[_-]?[A-z0-9]+.)*[A-z0-9]+-?[A-z0-9]+.[A-z]{2,}(/.*)*/?/i', $result, $match);
  103. if (CHECK_URL && isset($match[2]) && !empty($match[2]))
  104. {
  105. foreach ($match[2] as $mc)
  106. {
  107. $mc = trim($mc);
  108. if ($mc == '#')
  109. continue;
  110. if (stripos($mc, 'http') === false)
  111. $mc = $host.$mc;
  112. if (($ret = check_valid_url($mc)))
  113. {
  114. if (!isset($outputArr[md5($mc)]))
  115. {
  116. $outputArr[md5($mc)] = $mc;
  117. file_put_contents($output, $mc." ", FILE_APPEND);
  118. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  119. }
  120. }
  121. }
  122. }
  123. //check for javascript ajax require
  124. echo 'remain: ',$num,' now start to check for javascript ajax require',PHP_EOL,PHP_EOL;
  125. preg_match_all('//i', $result, $match);
  126. if (CHECK_JS_TAG && isset($match[2]) && !empty($match[2]))
  127. {
  128. foreach ($match[2] as $mc)
  129. {
  130. $mc = trim($mc);
  131. if ($mc == '#')
  132. continue;
  133. if (stripos($mc, 'http') === false)
  134. $mc = $host.$mc;
  135. if (($ret = check_valid_url($mc)))
  136. {
  137. //check for current page
  138. foreach ($checkArr as $ck)
  139. {
  140. if (!isset($outputArr[md5($mc)]) && strpos($ret, $ck) !== false)
  141. {
  142. $outputArr[md5($mc)] = $mc;
  143. file_put_contents($output, $mc." ", FILE_APPEND);
  144. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  145. break;
  146. }
  147. }
  148. }
  149. }
  150. }
  151. if ($reverse)
  152. return;
  153. //check for next page
  154. preg_match_all('//i', $result, $match);
  155. if (isset($match[2]) && !empty($match[2]))
  156. {
  157. echo 'check for next page, remain page counts: ',$num,PHP_EOL;
  158. foreach ($match[2] as $mc)
  159. {
  160. $mc = trim($mc);
  161. if ($mc == '#')
  162. continue;
  163. if (stripos($mc, 'http') === false)
  164. $mc = $host.$mc;
  165. echo 'check for next page: ',$mc,PHP_EOL;
  166. work(check_valid_url($mc), true);
  167. }
  168. }
  169. $num--;
  170. sleep(3);
  171. }
  172. }
  173. function check_valid_url($url)
  174. {
  175. if (stripos($url, 'http') === false)
  176. $url = 'http://'.$url;
  177. $ch = curl_init();
  178. curl_setopt($ch, CURLOPT_URL, $url);
  179. curl_setopt($ch, CURLOPT_HEADER, true);
  180. curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  181. curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  182. curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)');
  183. if (!is_null($header))
  184. curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  185. if (!is_null($proxy))
  186. curl_setopt($ch, CURLOPT_PROXY, $proxy);
  187. $ret = curl_exec($ch);
  188. $errinfo = curl_error($ch);
  189. curl_close($ch);
  190. unset($ch);
  191. if (!empty($errinfo) || ((strpos($ret, '200 OK') === false) && (strpos($ret, '302 Moved') === false)) || strpos($ret, '114so.cn') !== false)
  192. {
  193. showerror('check url: '.$url. ' find some errors', array($errinfo, $ret));
  194. if (SAVE_ERROR)
  195. file_put_contents(dirname(__FILE__).'/error.txt', $url." ", FILE_APPEND);
  196. return false;
  197. }
  198. return $ret;
  199. }
  200. function check_extension()
  201. {
  202. if (!function_exists('curl_init') || !extension_loaded('curl'))
  203. return false;
  204. return true;
  205. }
  206. function showerror($t, $c)
  207. {
  208. $str = "######################################################################### ";
  209. $str .= "# ".$t." ";
  210. if (is_string($c))
  211. $str .= "# ".$c;
  212. elseif (is_array($c) && !empty($c))
  213. {
  214. foreach ($c as $c1)
  215. $str .= "# ".$c1." ";
  216. }
  217. $str .= " ######################################################################### ";
  218. echo $str;
  219. unset($str);
  220. }
复制代码


热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

616

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

194

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

91

2026.02.13

TypeScript工程化开发与Vite构建优化实践
TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

20

2026.02.13

Redis高可用架构与分布式缓存实战
Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开,系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示,帮助开发者构建高可用、可扩展的分布式缓存系统。

54

2026.02.13

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

29

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

15

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

598

2026.02.12

PostgreSQL性能优化与索引调优实战
PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师,深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析,帮助开发者提升数据库响应速度与系统稳定性。

56

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Express 中文开发手册
Express 中文开发手册

共0课时 | 1人学习

PHP使用CURL抓取页面
PHP使用CURL抓取页面

共4课时 | 2.9万人学习

极客学院ASP.NET视频教程
极客学院ASP.NET视频教程

共90课时 | 21万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号