0

0

PHP Simple HTML DOM 解析开启缓存的网站时出现乱码的解决方案

花韻仙語

花韻仙語

发布时间:2025-08-15 19:04:00

|

450人浏览过

|

来源于php中文网

原创

php simple html dom 解析开启缓存的网站时出现乱码的解决方案

在使用 PHP Simple HTML DOM 解析网页时,有时会遇到从开启缓存的 WordPress 网站抓取内容时出现乱码的情况。正如摘要所述,这种现象通常发生在首次抓取成功后,后续抓取返回乱码。这通常是因为服务器返回了经过 gzip 压缩的内容,而 Simple HTML DOM 库默认没有处理压缩数据的能力。

解决方案一:使用 cURL 并设置 CURLOPT_ACCEPT_ENCODING

cURL 是一个强大的 PHP 库,可以用来发送 HTTP 请求。通过配置 cURL 选项,我们可以告诉服务器我们支持接收 gzip 压缩的内容,并让 cURL 自动解压缩。

以下是一个使用 cURL 解决乱码问题的示例代码:

<?php

include('/simple_html_dom.php');

$url = "https://www.2311666.com.tw/";

$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Chrome/94.0.4606.81');
// 关键:设置 CURLOPT_ACCEPT_ENCODING 为空字符串,允许 cURL 自动处理压缩
curl_setopt($curl, CURLOPT_ACCEPT_ENCODING, "");

$response = curl_exec($curl);

if (curl_errno($curl)) {
    echo 'cURL error: ' . curl_error($curl);
    exit;
}

curl_close($curl);

$html = new simple_html_dom();
$html->load($response);

echo $html;

?>

代码解释:

立即学习PHP免费学习笔记(深入)”;

  1. curl_setopt($curl, CURLOPT_ACCEPT_ENCODING, ""); 这行代码告诉服务器,客户端可以接受任何编码方式,包括 gzip。cURL 会自动处理 gzip 压缩的数据,并将其解压缩为原始 HTML 内容。
  2. 使用 curl_exec($curl) 获取网页内容。
  3. 将获取到的内容加载到 Simple HTML DOM 对象中。

注意事项:

万彩AI
万彩AI

多功能AI创作工具合集,支持AI写作、AI换脸、AI数字人等

下载
  • 确保你的 PHP 环境已经安装并启用了 cURL 扩展。
  • 如果服务器没有正确设置 Content-Encoding 头部,即使设置了 CURLOPT_ACCEPT_ENCODING,cURL 也可能不会自动解压缩。

解决方案二:使用 gzdecode() 函数

如果服务器返回的响应头明确指示内容是 gzip 压缩的,但 cURL 没有自动解压缩,或者你不能使用 cURL,你可以手动使用 gzdecode() 函数解压缩内容。

以下是一个使用 gzdecode() 函数解决乱码问题的示例代码:

<?php

include('/simple_html_dom.php');

$url = "https://www.2311666.com.tw/";
$opts = array(
    'http'=> array('header'=>"User-Agent:Chrome/94.0.4606.81\r\n")
);
$context = stream_context_create($opts);
$get = file_get_contents($url, false, $context);

// 检查是否是 gzip 压缩的内容,例如检查 Content-Encoding 头部
$headers = get_headers($url);
$is_gzip = false;
foreach ($headers as $header) {
    if (stripos($header, 'Content-Encoding: gzip') !== false) {
        $is_gzip = true;
        break;
    }
}

// 如果是 gzip 压缩,则使用 gzdecode() 解压缩
if ($is_gzip && function_exists('gzdecode')) {
    $get = gzdecode($get);
}

$html = new simple_html_dom();
$html->load($get);

echo $html;

?>

代码解释:

立即学习PHP免费学习笔记(深入)”;

  1. get_headers($url) 获取服务器返回的响应头。
  2. 遍历响应头,检查是否存在 Content-Encoding: gzip 头部,判断内容是否是 gzip 压缩的。
  3. 如果内容是 gzip 压缩的,并且 gzdecode() 函数可用,则使用 gzdecode($get) 解压缩内容。
  4. 将解压缩后的内容加载到 Simple HTML DOM 对象中。

注意事项:

  • gzdecode() 函数需要 PHP 的 zlib 扩展支持。确保你的 PHP 环境已经安装并启用了 zlib 扩展。
  • 在调用 gzdecode() 之前,务必确认内容是 gzip 压缩的,否则可能会导致解压缩失败并返回错误。

总结

当使用 PHP Simple HTML DOM 解析开启缓存的 WordPress 网站时遇到乱码问题,通常是因为服务器返回了 gzip 压缩的内容。通过使用 cURL 并设置 CURLOPT_ACCEPT_ENCODING 或使用 gzdecode() 函数,可以有效地解决这个问题。选择哪种解决方案取决于你的具体需求和环境配置。如果可以使用 cURL,建议使用 cURL 并设置 CURLOPT_ACCEPT_ENCODING,因为它更简单、更高效。如果不能使用 cURL,则可以使用 gzdecode() 函数手动解压缩内容。 无论选择哪种方法,都需要确保你的 PHP 环境已经安装并启用了相应的扩展。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

454

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4213

2024.08.14

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

490

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3359

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2832

2024.08.16

wordpress seo
wordpress seo

WordPress网站SEO优化方法有:1、选择一个SEO友好的主题,具有清晰的代码结构,快速的加载速度和响应式设计;2、使用SEO插件,优化你的标题标签,元描述,关键字,XML站点地图等;3、优化你的内容,内容是SEO优化的核心;4、优化你的网站速度;5、创建友好的URL;6、使用内部链接;7、优化图像;8、使用社交媒体;9、定期更新你的网站;10、监控和分析你的网站等等。

433

2023.09.18

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

1

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
第二十三期_前端开发
第二十三期_前端开发

共98课时 | 8.2万人学习

WordPress视频教程
WordPress视频教程

共23课时 | 9.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号