怎么定时抓取数据_PHP实现定时自动抓取计划【指南】

星夢妙者

发布时间：2026-02-23 21:36:11

104人浏览过

来源于php中文网

原创

php无内置定时能力，需依赖cron或windows任务计划；禁用sleep()循环模拟，因web服务器会终止、进程易被回收、无法自启、周期不准；应使用绝对路径调用php脚本，开启cron日志，脚本专注单次抓取、过滤数据、写日志，用时间戳和flock防重漏。

怎么定时抓取数据_php实现定时自动抓取计划【指南】

PHP 本身没有内置的“定时”能力，cron（Linux）或任务计划程序（Windows）才是真正的定时执行者；PHP 脚本只是被调用的“干活的人”。直接在 PHP 里用 sleep() 或循环模拟定时，生产环境必然失败。

为什么不能用 `set_time_limit(0)` + `while(true)` 模拟定时

这种写法看似能“一直跑”，实则问题集中：

Web 服务器（如 Apache/Nginx）通常会在几十秒内强制终止无响应的请求，max_execution_time 不是唯一限制
PHP 进程脱离 Web 请求后容易被系统回收（尤其使用 FPM 模式时），无法保证长期存活
一旦脚本异常退出，不会自动重启，抓取任务就彻底中断
无法精确控制间隔（sleep() 受脚本执行耗时影响，实际周期 = 执行时间 + sleep 时间）

Linux 下用 `cron` 调用 PHP 脚本的正确写法

这是最稳定、最可控的方式。关键点不在 PHP，而在 cron 表达式和脚本调用路径是否可靠：

用绝对路径调用 PHP 解释器：/usr/bin/php /var/www/project/fetch.php，避免环境变量差异
脚本开头加 #!/usr/bin/env php 并 chmod +x 后，可直接写 /var/www/project/fetch.php
cron 日志必须开启（/var/log/syslog 或 crontab -e 前加 LOGFILE=/var/log/fetch.log），否则失败无声无息
避免在脚本中依赖 $_SERVER 或会话（如 $_SESSION），CLI 模式下这些未初始化

示例（每 15 分钟执行一次）：
*/15 * * * * /usr/bin/php /var/www/project/fetch.php >> /var/log/fetch.log 2>&1

立即学习“PHP免费学习笔记（深入）”；

PHP 脚本里该做什么、不该做什么

脚本职责必须单一：只负责“这一次抓取”的逻辑，不维护状态、不判断是否该执行——那是 cron 的事：

用 file_get_contents() 或 cURL 抓取目标 URL，注意设置超时（curl_setopt($ch, CURLOPT_TIMEOUT, 30)）
数据入库前务必过滤/转义，尤其是从 HTML 中提取的内容，防止 SQL 注入或 XSS 存储
写日志别只靠 echo，用 error_log("fetched 12 items", 3, "/var/log/fetch.log") 确保 CLI 下可见
不要在脚本里写 if (date('H') == '2') { ... } 来二次判断时间——cron 已经决定了执行时机，冗余逻辑增加出错面

如何避免重复抓取或漏抓

靠外部调度机制（如 cron）无法 100% 保证不重不漏，需在脚本内加轻量级防护：

抓取前检查上一次成功记录的时间戳（存在数据库或文件中），若距今不足设定间隔（如 15 分钟），直接退出
用 flock() 对锁文件加排他锁，防止同一脚本被 cron 多次触发并发执行（常见于网络延迟导致上轮未结束，下轮又启动）
抓取完成后，再更新成功时间戳 —— 顺序不能反，否则失败也会被标记为“已完成”

真正难的不是写抓取代码，而是让每次执行都可预期、可追溯、可中断恢复。多数线上故障，源于把“定时”当成 PHP 的事，而忘了它只是被唤起的一次函数调用。

Laravel 中按 SKU 键聚合关联数组并求和的完整实践

php怎么发送邮件_php使用PHPMailer发邮件教程【高效】

怎么在mac进行php版本控制_mac平台操作指南】

PHP数据库缓存查询结果怎设索引_DB缓存索引设置法【优化】

php怎么读写文件_php file_put_contents与file_get_contents用法【操作】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php sql nginx xss echo if while date cURL 循环 var 并发 windows 数据库 apache linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php弱类型下0与false转整型一样吗_实测区别记牢【教程】下一篇：PHP去除数组空值最简单办法_新手入门操作指南【指南】

作者最新文章

猫眼专业版官网直达入口猫眼专业版PC端首页指南

2026-02-22 16:11

燕云十六声金秉澄怎么结交金秉澄对话攻略

2026-02-22 16:12

交互图表怎么添加数据源_交互图表多数据源连接方法【操作】

2026-02-22 16:16

燕云十六声卓玉麟怎么结交卓玉麟对话攻略

2026-02-22 16:36

游戏体力无限储备秘籍轻松称霸副本活动

2026-02-22 19:43

炉石传说狂野罗神贼卡组怎么搭配-炉石狂野罗神贼组分享11月

2026-02-22 19:43

中国8000元以上手机市场份额排名：苹果只有一个对手！

2026-02-22 19:43

php怎么写兼容PDO驱动_php跨数据库PDO兼容写法汇总【汇总】

2026-02-22 19:52

哀恸谷梦魇挑战全攻略精准捕捉酷炫声骸凯尔匹

2026-02-22 20:11

甘太孙平民弓兵开荒指南：高爆低耗稳占前线

2026-02-22 20:14

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1026

2023.10.12