0

0

php怎么实现爬虫功能_php抓取网页内容并解析【采集】

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-02-23 21:37:03

|

105人浏览过

|

来源于php中文网

原创

curl_exec() 返回空字符串但 http 状态码是 200,通常是因目标网站反爬(如校验 user-agent 或返回 js 渲染内容),应设置真实请求头、启用跳转、检查 ssl 及错误信息。

php怎么实现爬虫功能_php抓取网页内容并解析【采集】

curl_exec() 返回空字符串但 HTTP 状态码是 200

这通常不是代码写错了,而是目标网站做了基础反爬:比如检查 User-Agent、拒绝非浏览器请求、或返回了 JavaScript 渲染后的内容(而 curl 只拿原始 HTML)。
解决办法不是硬刚,而是先模拟真实请求头:

  • 务必设置 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36')
  • 加上 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true) 处理跳转
  • curl_getinfo($ch, CURLINFO_HTTP_CODE) 确认状态码,再检查 curl_error($ch) 是否为空——很多“空响应”其实是 SSL 握手失败,得加 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false)(仅测试用)

file_get_contents() 抓到的 HTML 里有乱码或缺失内容

PHP 默认不处理字符编码转换,file_get_contents() 拿到的是原始字节流。如果网页声明是 UTF-8 但实际含 GBK 字符,或者用了 BOM 或压缩传输(gzip),就会显示异常。

  • 优先改用 curl,它能自动处理 gzip 和重定向;file_get_contents() 对压缩响应完全无感
  • 若坚持用 file_get_contents(),必须配 stream_context_create() 设置 http 选项:'user_agent''timeout''header' => ["Accept-Encoding: gzip"](但解压仍需手动)
  • 拿到内容后别急着 DOMDocument::loadHTML(),先用 mb_convert_encoding($html, 'UTF-8', 'auto') 做一次编码归一

DOMDocument::loadHTML() 解析失败,报 Warning: DOMDocument::loadHTML(): htmlParseEntityRef: no name

这是 HTML 不规范导致的,比如出现了未闭合的  、孤立的 ©、或 JS 里的 && 被当成了实体引用。DOMDocument 默认严格解析,不会自动容错。

  • 加载前先用 libxml_use_internal_errors(true) 屏蔽警告,否则直接中断脚本
  • preg_replace('/&(?![a-zA-Z#]{1,8};)/', '&', $html) 修复孤立 & 符号(常见于内联 JS/CSS)
  • 不要用 loadHTMLFile() 直接读远程 URL——它不走 curl 设置,也不支持 header,容易出错;统一先 curl_exec() 拿内容,再 loadHTML()

用 XPath 提取元素时总是返回空数组

XPath 表达式本身没问题,但 DOM 结构和你预期的不一样:比如目标内容在 <script></script> 里动态渲染、被注释掉、或包裹在 iframe 中。DOMDocument 解析的是静态 HTML,不执行 JS。

立即学习PHP免费学习笔记(深入)”;

  • 先用 $dom->saveHTML() 输出解析后的 HTML 片段,确认目标节点是否真的存在
  • XPath 查询前确保调用 $xpath->registerNamespace('x', 'http://www.w3.org/1999/xhtml')(如果文档有命名空间)
  • $xpath->query('//div[@class="content"]//p[1]') 这类带层级的路径比单纯 //p 更稳;避免用 text() 直接取值,先取节点再调 $node->textContent
  • 注意:XPath 索引从 1 开始,[1] 是第一个,不是 [0]

真正卡住的地方往往不在语法,而在你拿到的 HTML 根本不是浏览器看到的那个版本——没处理跳转、没过反爬头、没解 gzip、没清 JS 注释、没容错实体符号。每一步都得验证中间结果,而不是堆完代码才看最终输出。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

182

2023.10.30

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

618

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

217

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

642

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1027

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

960

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1127

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 12.3万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号