0

0

爬虫怎么避开反爬_PHP爬虫绕过常见反爬策略方法【技巧】

看不見的法師

看不見的法師

发布时间:2026-02-15 15:43:17

|

880人浏览过

|

来源于php中文网

原创

curl_setopt 设置 user-agent 易被识破因 ua 过假、静态,需随机多端真实 ua 并同步 accept、accept-language、sec-ch-ua 等头;代理须高匿且轮换,延时需随机化(0.8–2 秒),cookie 应用 curlopt_cookiejar/file 自动管理,请求后校验响应内容而非仅状态码。

爬虫怎么避开反爬_php爬虫绕过常见反爬策略方法【技巧】

curl_setopt 设置 User-Agent 为什么总被识破?

很多 PHP 爬虫一上来就硬塞一个 Chrome UA,结果几页就 403 —— 不是因为没设,而是设得太假、太静态。网站会比对 UA 字符串的合理性(比如版本号是否过时)、与 Accept、Accept-Language 等头字段是否匹配,甚至结合 TLS 指纹判断真伪。

  • 别只填一个 UA,用数组存 $user_agents,每次 array_rand() 随机取;至少包含 Chrome、Firefox、Safari 的 Win/macOS/iOS 多端组合
  • 必须同步设置 AcceptAccept-LanguageSec-Ch-Ua(Chromium 浏览器需带这个),否则高防站点直接拒收
  • 避免使用已知爬虫 UA 库里的“通用字符串”,比如 Mozilla/5.0 (X11; Linux x86_64) 这类服务器 UA,一眼就被标记

代理 IP 轮换不是加个 CURLOPT_PROXY 就完事

随便扔一个免费代理进 curl_setopt($ch, CURLOPT_PROXY, $proxy),大概率超时或返回空响应——因为多数免费代理是透明型,目标站一查 X-Forwarded-For 或 TLS 指纹,立刻封掉整个代理池。

  • 优先选高匿(Elite)代理,验证方式:请求 http://httpbin.org/ip,确认响应 body 中的 IP 和你传的代理 IP 一致,且响应头不含 X-Forwarded-For
  • 别让同一个代理连续请求超过 3–5 次,用 array_shift() + array_push() 实现简单轮转队列
  • 配合 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 8)CURLOPT_TIMEOUT 防卡死,失败后自动切下一个代理

sleep() 和 usleep() 控制频率,但要注意单位陷阱

sleep(1) 看似每秒一次,实际可能因 DNS 解析、SSL 握手、网络抖动导致真实间隔远小于 1 秒,触发速率限制;而 usleep(500000)(半秒)在高并发下仍可能被识别为规律行为。

灵图AI
灵图AI

灵图AI辅助设计平台

下载
  • usleep(rand(800000, 2000000)) 替代固定延时,范围拉大到 0.8–2 秒,更贴近真人操作节奏
  • 避免在循环开头统一延时,应放在 curl_exec() 之后、下次请求之前,否则首次请求前也等,浪费时间
  • 如果目标站有 Referer 校验(比如从列表页跳详情页),记得在延时后补上 Referer 头,否则会被当异常流量拦截

Cookie 和登录态怎么“续”才不掉?

很多人模拟登录后把 Set-Cookie 字符串手动拼成 Cookie: a=1; b=2 发过去,结果第二页就 302 跳登录页——问题出在 Cookie 有效期、Domain、Path、Secure 属性没对齐,或者漏了 HttpOnly 字段对应的 session ID。

立即学习PHP免费学习笔记(深入)”;

  • 别手拼 Cookie,用 curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt') 自动保存,再用 CURLOPT_COOKIEFILE 复用,cURL 会处理所有属性
  • 登录请求必须带上 Content-Type: application/x-www-form-urlencoded,且 POST 数据用 http_build_query() 编码,否则表单校验失败
  • 若目标站用 JWT 或 localStorage 存 token,PHP curl 拿不到 JS 上下文,得换方案:用 headless Chrome(如 puppeteer-php)或退一步,抓包分析 token 生成逻辑
真实绕过反爬,从来不是堆技巧,而是让每一次请求在 Header、Timing、Cookie、跳转链路上都像一个真实用户——哪怕多花 200ms 做随机延迟,也比被封 IP 后重试三次更有性价比。最常被忽略的一点:别忘了检查响应状态码和 Content-Length,有些站不返回 403,而是静默返回空 HTML 或验证码页面,这时候光看 HTTP 状态码会误判成功。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

947

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

779

2023.11.06

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6463

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

361

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

430

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

96

2025.08.19

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

325

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

772

2023.10.18

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 11.8万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号