0

0

PHP实现数据采集的方法

小云云

小云云

发布时间:2018-03-21 16:27:20

|

2421人浏览过

|

来源于php中文网

原创

采集就是使用PHP程序,把其他网站中的信息抓取到我们自己的数据库中、网站中。本文主要和大家分享PHP实现数据采集的方法,希望能帮助到大家。

php制作采集的技术:

从底层的socket到高层的文件操作函数,一共有3种方法可以实现采集。

1. 使用socket技术采集:

socket采集是最底层的,它只是建立了一个长连接,然后我们要自己构造http协议字符串去发送请求。

例如要想获取这个页面的内容,http://tv.youku.com/?spm=a2hww.20023042.topNav.5~1~3!2~A,用socket写如下:

立即学习PHP免费学习笔记(深入)”;

打印出的结果如下,包含了返回的头信息及页面的源码:

 

2. 使用curl_一套函数

curl把HTTP协议都封装成了很多函数,直接传相应参数即可,降低了编写HTTP协议字符串的难度。

前提:在php.ini中要开启curl扩展。

  1. //生成一个curl对象
    $curl=curl_init();  
    //设置URL和相应的选项
    curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");  
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以字符串返回,而不是直接输出。
    //执行curl操作
    $data=curl_exec($curl);  
    var_dump($data);

打印出的结果如下,只包含页面的源码:

3. 直接使用file_get_contents(最顶层的)

前提:在php.ini中设置允许打开一个网络的url地址。

 

//使用file_get_contents()
$data=file_get_contents("http://www.youku.com");  
var_dump($data);

3种方式的选择

网络之间通信主要使用的是以上三种。其中后两种用的较多:如果要批量采集大量的数据时使用第二种【CURL】,性能好、稳定。

偶尔发几个请求发的频繁不密集时使用第三种。

扩展:图片的防盗链如何破?

比如7060网站上的图片做了防盗链:在他的网站中可以看到图片,把图片拿到站外就无法访问。

 

原理:在HTTP协议中有一个referer项,代表发这个请求的来源地址,服务器会判断如果这个请求不是这个网站发来的就会过滤掉这个请求:

 

解决办法:发HTTP时自己模拟referer即可:

 

扩展:有些要采集数据时时必须先登录,可以使用模拟的试模拟在登录状态下的采集:

a. 先用浏览登录一下,登录完,浏览器的COOKIE中就会有SESSIONID

b. 发PHP发HTTP协议时,把浏览器中的SESSIONID放到PHP的HTTP协议请求里,这样就在以登录的状态发请求。

总结:所有客户端发过来的数据都可以被模拟,所以服务器上的程序必须要必要的地方过滤客户端的数据。

华友协同办公自动化OA系统
华友协同办公自动化OA系统

华友协同办公管理系统(华友OA),基于微软最新的.net 2.0平台和SQL Server数据库,集成强大的Ajax技术,采用多层分布式架构,实现统一办公平台,功能强大、价格便宜,是适用于企事业单位的通用型网络协同办公系统。 系统秉承协同办公的思想,集成即时通讯、日记管理、通知管理、邮件管理、新闻、考勤管理、短信管理、个人文件柜、日程安排、工作计划、工作日清、通讯录、公文流转、论坛、在线调查、

下载

什么时候用以上东西?接口开发时、采集时。

二、数据采集

例如我要采集这个url里的所有美国电影的信息,

http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html

则先要知道电影所在的节点的结构,我们使用firebug查看。

 

然后开始写代码:完整代码如下

  1. /**
     * 发一个GET请求获取数据
     */
    function get($url)  
    {  
       global $curl;  
       // 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_
       curl_setopt($curl, CURLOPT_URL, $url);  
       curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);  
       curl_setopt($curl, CURLOPT_HEADER, FALSE);  
       // 执行这个请求
       return curl_exec($curl);  
    }  
    // 生成一个curl对象
    $curl = curl_init();  
    $url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html';  
    $data=get($url);  
    // 匹配电影所在位置
    $list_preg = '/
  2. .+<\/li>/Us'; // 匹配img标签上的src和alt $img_preg = '/@@##@@/U'; //匹配电影的url $video_preg='/<\/a>/U'; //把所有的li存到$list里,$list是个二维数组 preg_match_all($list_preg,$data,$list); //var_dump($list); foreach ($list[0] as $k => $v) { //这里$v就是每一个li标签 /* 获取图片及电影名称 preg_match($img_preg,$v,$img); //把匹配到的图片的信息存到$img里 var_dump($img); */ /*获取电影地址 preg_match($video_preg,$v,$video); //把匹配到的电影的信息存到$video里 var_dump($video); */ preg_match($img_preg,$v,$img); preg_match($video_preg,$v,$video); echo $img[0].''.$video[2].''; }

测试:

打印$list;

 PHP实现数据采集的方法

打印$img

 

打印$video

 

 

最终效果:

 

如果需要把图片拷贝到硬盘上,则在foreach循环里加上以下代码:

  1. $imgData = get($img[1]);  
       // 把图片文件写到硬盘上【下载】
       // 因为操作系统是GBK的,所以要把UTF8转成GBK
       is_dir('./youkuimg/') ? '': mkdir('./youkuimg/');  
    file_put_contents('./youkuimg/'.mb_convert_encoding($img[3], 'gbk', 'utf-8').'.jpg', $imgData);


 

效果如下:在当前目录下的youkuimg目录下就会有下载好的图片。


相关推荐:

php正则与数据采集详解

php 一个数据采集类实例代码

深入php数据采集的详解_PHP教程

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

php

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

6

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

21

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

16

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

11

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.22

PHP特殊符号教程合集
PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法,阅读专题下面的文章了解更多详细内容。

9

2026.01.22

PHP探针相关教程合集
PHP探针相关教程合集

本专题整合了PHP探针相关教程,阅读专题下面的文章了解更多详细内容。

7

2026.01.22

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

24

2026.01.22

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.6万人学习

Django 教程
Django 教程

共28课时 | 3.4万人学习

Excel 教程
Excel 教程

共162课时 | 13万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号