基于PHP的简单采集数据入库程序_PHP

php中文网

发布时间：2016-05-31 19:30:55

1016人浏览过

来源于php中文网

原创

说到采集，无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码（别拿去做坏事哦^_^）

所要采集的内容是某游戏网站上的公告，如下图：

立即学习“PHP免费学习笔记（深入）”；

可先利用file_get_contents和简单正则获取基本页面信息

整理下基本信息，采集入库：

华友协同办公自动化OA系统

华友协同办公管理系统(华友OA)，基于微软最新的.net 2.0平台和SQL Server数据库，集成强大的Ajax技术，采用多层分布式架构，实现统一办公平台，功能强大、价格便宜，是适用于企事业单位的通用型网络协同办公系统。系统秉承协同办公的思想，集成即时通讯、日记管理、通知管理、邮件管理、新闻、考勤管理、短信管理、个人文件柜、日程安排、工作计划、工作日清、通讯录、公文流转、论坛、在线调查、

下载

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="//iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "$value"."
";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的，且页面地址是规律递增，所以我用了js跳转代码，利用id传值控制采集的页数，也避免了for循环数目过大。

轻轻松松数据入库，下篇文章写关于具体url采集信息的过程。

如何在表单中根据 MySQL 布尔字段值自动选中单选按钮

生成630个1–20之间的随机数，使其总和严格不超过3000的PHP实现方案

如何在表单中根据 MySQL 布尔字段预选单选按钮

PHP 中读取 PHP 文件顶部注释元数据的最佳实践

如何在 WordPress Astra 主题页眉中动态显示带图标的特色图像标题

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

微信文件过期恢复教程

本专题整合了微信文件过期恢复方法、技巧教程，阅读专题下面的文章了解更多详细内容。

2026.02.04

抖音网页版入口与视频观看指南抖音官网视频在线访问

本专题汇总了抖音网页版的入口链接、官方登录页面以及视频观看入口，帮助用户快速访问抖音网页版，提供免登录访问方式和直接进入视频播放页面的方法，确保顺利浏览和观看抖音视频。

2026.02.04

学习通网页版入口与在线学习指南学习通官网登录与使用方法

本专题详细汇总了学习通网页版入口与登录方法，提供学习通官方网页端入口、学生登录平台、网页版使用指南等内容，帮助用户快速稳定地登录学习通官网，顺利进入学习平台，提升学习效率和体验。

2026.02.04

Python Web 框架 Django 深度开发

本专题系统讲解 Python Django 框架的核心功能与进阶开发技巧，包括 Django 项目结构、数据库模型与迁移、视图与模板渲染、表单与认证管理、RESTful API 开发、Django 中间件与缓存优化、部署与性能调优。通过实战案例，帮助学习者掌握使用 Django 快速构建功能全面的 Web 应用与全栈开发能力。

2026.02.04

Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用，系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控，结合实际业务场景，帮助开发者构建高吞吐量、低延迟的实时数据流管道，实现高效的数据流转与处理。

2026.02.04

Golang 容器化与 Docker 实战

本专题深入讲解 Golang 应用的容器化与 Docker 部署，涵盖 Docker 基础概念、容器构建与镜像管理、Go 应用的 Dockerfile 编写、跨平台容器部署与优化、Docker Compose 和 Kubernetes 部署工具。通过实际案例，帮助学习者掌握如何将 Golang 应用容器化并实现高效部署与管理，提升系统的可扩展性与运维效率。

2026.02.04