php怎么实现爬虫功能_php抓取网页内容并解析【采集】

裘德小鎮的故事

发布时间：2026-02-23 21:37:03

105人浏览过

来源于php中文网

原创

curl_exec() 返回空字符串但 http 状态码是 200，通常是因目标网站反爬（如校验 user-agent 或返回 js 渲染内容），应设置真实请求头、启用跳转、检查 ssl 及错误信息。

php怎么实现爬虫功能_php抓取网页内容并解析【采集】

curl_exec() 返回空字符串但 HTTP 状态码是 200

这通常不是代码写错了，而是目标网站做了基础反爬：比如检查 User-Agent、拒绝非浏览器请求、或返回了 JavaScript 渲染后的内容（而 curl 只拿原始 HTML）。
解决办法不是硬刚，而是先模拟真实请求头：

务必设置 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36')
加上 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true) 处理跳转
用 curl_getinfo($ch, CURLINFO_HTTP_CODE) 确认状态码，再检查 curl_error($ch) 是否为空——很多“空响应”其实是 SSL 握手失败，得加 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false)（仅测试用）

file_get_contents() 抓到的 HTML 里有乱码或缺失内容

PHP 默认不处理字符编码转换，file_get_contents() 拿到的是原始字节流。如果网页声明是 UTF-8 但实际含 GBK 字符，或者用了 BOM 或压缩传输（gzip），就会显示异常。

优先改用 curl，它能自动处理 gzip 和重定向；file_get_contents() 对压缩响应完全无感
若坚持用 file_get_contents()，必须配 stream_context_create() 设置 http 选项：'user_agent'、'timeout'、'header' => ["Accept-Encoding: gzip"]（但解压仍需手动）
拿到内容后别急着 DOMDocument::loadHTML()，先用 mb_convert_encoding($html, 'UTF-8', 'auto') 做一次编码归一

DOMDocument::loadHTML() 解析失败，报 Warning: DOMDocument::loadHTML(): htmlParseEntityRef: no name

这是 HTML 不规范导致的，比如出现了未闭合的、孤立的 ©、或 JS 里的 && 被当成了实体引用。DOMDocument 默认严格解析，不会自动容错。

加载前先用 libxml_use_internal_errors(true) 屏蔽警告，否则直接中断脚本
用 preg_replace('/&(?![a-zA-Z#]{1,8};)/', '&', $html) 修复孤立 & 符号（常见于内联 JS/CSS）
不要用 loadHTMLFile() 直接读远程 URL——它不走 curl 设置，也不支持 header，容易出错；统一先 curl_exec() 拿内容，再 loadHTML()

用 XPath 提取元素时总是返回空数组

XPath 表达式本身没问题，但 DOM 结构和你预期的不一样：比如目标内容在 <script></script> 里动态渲染、被注释掉、或包裹在 iframe 中。DOMDocument 解析的是静态 HTML，不执行 JS。

立即学习“PHP免费学习笔记（深入）”；

先用 $dom->saveHTML() 输出解析后的 HTML 片段，确认目标节点是否真的存在
XPath 查询前确保调用 $xpath->registerNamespace('x', 'http://www.w3.org/1999/xhtml')（如果文档有命名空间）
用 $xpath->query('//div[@class="content"]//p[1]') 这类带层级的路径比单纯 //p 更稳；避免用 text() 直接取值，先取节点再调 $node->textContent
注意：XPath 索引从 1 开始，[1] 是第一个，不是 [0]

真正卡住的地方往往不在语法，而在你拿到的 HTML 根本不是浏览器看到的那个版本——没处理跳转、没过反爬头、没解 gzip、没清 JS 注释、没容错实体符号。每一步都得验证中间结果，而不是堆完代码才看最终输出。

Laravel 中按 SKU 键聚合关联数组并求和的完整实践

php怎么发送邮件_php使用PHPMailer发邮件教程【高效】

怎么在mac进行php版本控制_mac平台操作指南】

PHP数据库缓存查询结果怎设索引_DB缓存索引设置法【优化】

php怎么读写文件_php file_put_contents与file_get_contents用法【操作】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php 爬虫 xhtml 命名空间 cURL auto 字符串堆 class copy JS dom bom windows http ssl iframe

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PHP怎么提高代码运行速度_PHP代码性能优化技巧【方法】下一篇：PHP执行PY隐藏超时限制怎么破_延长执行时间的技巧【技巧】

作者最新文章

黔农云app怎么绑定支付宝黔农云app快捷支付签约方法分享【教程】

2026-02-21 19:26

番茄免费小说怎么下载到电脑_番茄小说文件转出教程【导出】

2026-02-21 19:28

闲鱼怎么修改收货地址_闲鱼更改买家收货信息教程【物流】

2026-02-21 19:28

百度地图怎么看海拔高度_百度地图当前位置海拔查询【户外】

2026-02-21 19:29

php怎么处理多维数组_php array_map与递归操作技巧【数组】

2026-02-21 19:31

大众点评怎么看必吃榜_大众点评美食榜单浏览【榜单】

2026-02-21 19:31

轻小说文库PC端官网轻小说文库网页版链接

2026-02-21 19:32

前程无忧如何提升投递成功率_前程无忧简历优化教程【技巧】

2026-02-21 19:32

八零电子书无法定位到当前章节怎么办八零电子书同步阅读进度【攻略】

2026-02-21 19:33

掌阅怎么开启PDF横屏_掌阅PDF阅读方向调整教程【排版】

2026-02-21 19:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

182

2023.10.30

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

618

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

217

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1558

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

642

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1027

2024.03.22