0

0

Snoopy PHP采集类使用说明详解

php中文网

php中文网

发布时间:2016-06-20 13:02:39

|

1233人浏览过

|

来源于php中文网

原创

snoopy php采集类使用说明详解

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,提交表单。

Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持。

一、Snoopy采集类的一些特点:  

1.抓取网页的内容 fetch  

2.抓取网页的文本内容 (去除HTML标签) fetchtext  

立即学习PHP免费学习笔记(深入)”;

3.抓取网页的链接,表单 fetchlinks fetchform  

4.支持代理主机  

5.支持基本的用户名/密码验证  

6.支持设置user_agent, referer(来路), cookies和header content(头文件)  

7.支持浏览器重定向,并能控制重定向深度  

8.能把网页中的链接扩展成高质量的url(默认)  

9.提交数据并且获取返回值  

10.支持跟踪HTML框架  

11.支持重定向的时候传递cookies,要求php4以上就可以了,由于本身是php一个类,无需扩支持,服务器不支持curl时候的最好选择。

二、Snoopy采集类方法:

1、fetch($URI) 

这是为了抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入

 $this->results。

2、fetchtext($URI) 

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

3、fetchform($URI) 

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

4、fetchlinks($URI) 

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。

5、submit($URI,$formvars) 

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

6、submittext($URI,$formvars) 

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

7、submitlinks($URI) 

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。 

默认情况下,相对链接将自动补全,转换成完整的URL。

三、Snoopy采集类属性: (缺省值在括号里)

$host 连接的主机 
$port 连接的端口 
$proxy_host 使用的代理主机,如果有的话 
$proxy_port 使用的代理主机端口,如果有的话 
$agent 用户代理伪装 (Snoopy v0.1) 
$referer 来路信息,如果有的话 
$cookies cookies, 如果有的话 
$rawheaders 其他的头信息, 如果有的话 
$maxredirs 最大重定向次数, 0=不允许 (5) 
$offsiteok whether or not to allow redirects off-site. (true) 
$expandlinks 是否将链接都补全为完整地址 (true) 
$user 认证用户名, 如果有的话 
$pass 认证用户名, 如果有的话 
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*) 
$error 哪里报错, 如果有的话 
$response_code 从服务器返回的响应代码 
$headers 从服务器返回的头信息 
$maxlength 最长返回数据长度 
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 
设置为0为没有超时 
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+) 
$maxframes 允许追踪的框架最大数量 
$status 抓取的http的状态 
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp) 
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

精美淘宝客单页面 zblog模板
精美淘宝客单页面 zblog模板

采用zblog修改的模板,简单方便,直接解压上传到空间即可使用,页面简单,适合SEO,导航,次导航,最新文章列表,随机文章列表全部都有,网站采用扁平结构,非常适用淘宝客类小站,所有文章都在根目录下。所有需要修改的地方在网页上各个地方都有标注说明,一切在网站后台都可以修改,无须修改任何程序代码,是新手的不二选择。后台登陆地址: 域名/login.asp用户名:admin (建议不要修改)密码:adm

下载

四、Snoopy采集类项目地址:

http://sourceforge.net/projects/snoopy/

五、Snoopy采集类实例代码  

1、Snoopy采集类基础实例代码

include "Snoopy.class.php";

$snoopy = new Snoopy;

$snoopy->proxy_host = "www.baidu.com";

$snoopy->proxy_port = "8080";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";

$snoopy->referer = "http://www.baidu.com/";

$snoopy->cookies["SessionID"] = 238472834723489l;

$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;

$snoopy->offsiteok = false;

$snoopy->expandlinks = false;

$snoopy->user = "joe";

$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.baidu.com")) {

echo "

".htmlspecialchars($snoopy->results)." 
n"; 
   

 } 

 else 

echo "error fetching document: ".$snoopy->error."n";   

2、 获取指定url内容

$url='http://www.baidu.com';
include('snoopy.php');
$snoopy=new Snoopy;
$snoopy->fetch($url);//获取所有内容
echo $snoopy->results;//显示结果
$snoopy->fetchtext //获取文本内容(去掉html代码)
$snoopy->fetchlinks //获取页面所有链接
$snoopy->fetchform //获取页面表单信息

3 、提交表单

include 'snoopy.php';
$snoopy=new Snoopy;
$formvars['username']='admin';
$formvars['pwd']='admin';
$action='http://www.baidu.com';//表单提交地址
$snoopy->submit($action,$formvars);//$formvars为提交的数组
echo $snoopy->results;//获取表单提交后的 返回的结果
$snoopy->submittext;//提交后只返回去除html的文本
$snoopy->submitlinks;//提交后只返回链接

4、 使用Snoopy来伪装

$formvars['username']='admin';
$formvars['pwd']='admin';
$action='http://www.baidu.com';
include 'snoopy.php';
$snoopy=new Snoopy;
$snoopy->cookies['PHPSESSID']='fc206b1918bd522cc863p36890e6notef7';//伪装sessionid
$snoopy->agent='(compatible;MSIE 4.01;MSN 2.5;AOL 4.0;Windows 98)';//伪装浏览器
$snoopy->referer='http://www.baidu.com';//伪装来源页地址 http_referer
$snoopy->rawheaders['Pragma']='no-cache';//cache 的http头信息
$snoopy->rawheaders['X_FORWARDED_FOR']='127.0.0.1';//伪装ip
$snoopy->submit($action,$formvars);
echo $snoopy->results;


相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

12

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

4

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

18

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

19

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号