0

0

PHP Simple HTML DOM 抓取开启缓存的网站返回乱码的解决方案

聖光之護

聖光之護

发布时间:2025-08-15 18:26:13

|

727人浏览过

|

来源于php中文网

原创

php simple html dom 抓取开启缓存的网站返回乱码的解决方案

在使用 PHP Simple HTML DOM 库进行网页抓取时,有时会遇到这样的问题:首次抓取目标网站内容正常,但后续的抓取却返回乱码。这种情况通常发生在目标网站启用了缓存机制,并且使用了 gzip 等压缩方式。 由于 Simple HTML DOM 库本身可能没有正确处理压缩数据,导致解析失败,最终返回乱码。

以下提供一种解决方案,使用 cURL 代替 file_get_contents,并设置 CURLOPT_ACCEPT_ENCODING 选项,告知服务器可以接受的编码方式。

使用 cURL 抓取并处理 gzip 压缩数据

<?php

include('simple_html_dom.php');

$url = "https://www.2311666.com.tw/";

$curl = curl_init();

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Chrome/94.0.4606.81');
curl_setopt($curl, CURLOPT_ACCEPT_ENCODING, ""); // 关键:允许接受任何编码
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false); // 建议:关闭 SSL 验证,除非你有有效的证书
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false); // 建议:关闭 SSL 验证,除非你有有效的证书

$html_content = curl_exec($curl);

if (curl_errno($curl)) {
    echo 'cURL error: ' . curl_error($curl);
    exit;
}

curl_close($curl);

$html = new simple_html_dom();
$html->load($html_content);

echo $html;

?>

代码解释:

立即学习PHP免费学习笔记(深入)”;

  1. 初始化 cURL: curl_init() 创建一个新的 cURL 资源。
  2. 设置 URL: curl_setopt($curl, CURLOPT_URL, $url) 设置要抓取的 URL。
  3. 设置返回结果: curl_setopt($curl, CURLOPT_RETURNTRANSFER, true) 设置 cURL 将抓取结果作为字符串返回,而不是直接输出。
  4. 设置 User-Agent: curl_setopt($curl, CURLOPT_USERAGENT, 'Chrome/94.0.4606.81') 设置 User-Agent,模拟浏览器行为。
  5. 设置 Accept-Encoding: curl_setopt($curl, CURLOPT_ACCEPT_ENCODING, "") 这是解决乱码问题的关键。 它告诉服务器,客户端可以接受任何编码方式,包括 gzip。 服务器通常会根据这个选项选择合适的压缩方式。
  6. 关闭 SSL 验证 (可选): curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false) 和 curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false) 用于关闭 SSL 证书验证。 在开发环境中,可以关闭,但在生产环境中,强烈建议开启,并配置正确的证书。
  7. 执行 cURL 请求: curl_exec($curl) 执行 cURL 请求,并将结果存储在 $html_content 变量中。
  8. 错误处理: curl_errno($curl) 和 curl_error($curl) 用于检查 cURL 请求是否发生错误。
  9. 关闭 cURL 资源: curl_close($curl) 释放 cURL 资源。
  10. 加载 HTML: $html->load($html_content) 使用 Simple HTML DOM 库加载 HTML 内容。
  11. 输出 HTML: echo $html 输出解析后的 HTML 内容。

另一种解决方案:使用 gzdecode() 函数

百度GBI
百度GBI

百度GBI-你的大模型商业分析助手

下载

如果服务器强制使用 gzip 压缩,即使设置了 CURLOPT_ACCEPT_ENCODING,返回的仍然是压缩后的数据,那么可以使用 gzdecode() 函数进行解压缩。

<?php

include('simple_html_dom.php');

$url = "https://www.2311666.com.tw/";

$curl = curl_init();

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Chrome/94.0.4606.81');
curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 告诉服务器接受 gzip 编码
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

$html_content = curl_exec($curl);

if (curl_errno($curl)) {
    echo 'cURL error: ' . curl_error($curl);
    exit;
}

curl_close($curl);

// 解码 gzip 压缩数据
$html_content = gzdecode($html_content);

$html = new simple_html_dom();
$html->load($html_content);

echo $html;

?>

注意事项:

  • gzdecode() 函数需要 PHP 的 zlib 扩展支持。
  • 在某些情况下,服务器可能返回 deflate 压缩的数据,此时可以使用 gzinflate() 函数进行解压缩。

总结:

当使用 PHP Simple HTML DOM 库抓取开启缓存的网站出现乱码时,可以尝试以下方法:

  1. 使用 cURL 代替 file_get_contents。
  2. 设置 curl_setopt($curl, CURLOPT_ACCEPT_ENCODING, "") 或 curl_setopt($curl, CURLOPT_ENCODING, "gzip")。
  3. 如果返回的是压缩数据,使用 gzdecode() 或 gzinflate() 函数进行解压缩。

通过以上方法,可以有效地解决 Simple HTML DOM 库抓取开启缓存网站返回乱码的问题,确保能够正确获取和解析网页内容。 另外,请务必尊重网站的 robots.txt 协议,避免过度抓取,以免对服务器造成不必要的负担。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1038

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

827

2023.11.06

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

454

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

718

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
如何进行WebSocket调试
如何进行WebSocket调试

共1课时 | 0.1万人学习

TypeScript全面解读课程
TypeScript全面解读课程

共26课时 | 5.1万人学习

前端工程化(ES6模块化和webpack打包)
前端工程化(ES6模块化和webpack打包)

共24课时 | 5.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号