0

0

PHP中高效并行检查多链接状态的教程

DDD

DDD

发布时间:2025-12-01 11:51:01

|

537人浏览过

|

来源于php中文网

原创

PHP中高效并行检查多链接状态的教程

本文旨在解决php脚本在循环检查多个远程文件链接时遇到的`err_connection_reset`问题。通过分析传统`get_headers`方法的局限性,我们提出并详细演示了如何利用php的curl多请求功能(`curl_multi_*`)实现高效、并行且健壮的链接状态检查,从而避免连接重置错误,并显著提升脚本性能。

在开发PHP脚本以检查远程服务器上文件的存在性时,开发者常会遇到一个常见但棘手的问题:当脚本尝试连续检查大量URL时,可能会收到ERR_CONNECTION_RESET错误,甚至导致后续无法通过浏览器访问这些链接。即使引入sleep()函数进行延迟,也往往无法彻底解决问题。这通常是由于服务器端的连接限制、防火墙规则或客户端在短时间内发起了过多同步请求,导致服务器主动断开连接。

get_headers()方法的局限性

原始问题中使用的get_headers()函数,虽然在检查单个URL时非常方便,但其本质是一个同步阻塞操作。这意味着每次请求都会等待服务器响应,然后才能发起下一个请求。当脚本在短时间内对同一服务器发起大量此类请求时,可能会触发以下问题:

  1. 服务器端限速或连接限制: 许多Web服务器或CDN服务会实施IP限速或并发连接数限制,以防止DDoS攻击或资源滥用。短时间内的大量同步请求很容易触及这些限制,导致服务器返回ERR_CONNECTION_RESET或直接拒绝连接。
  2. 资源消耗: 每次get_headers()调用都会建立一个新的HTTP连接。频繁地建立和关闭连接会消耗服务器和客户端的资源。
  3. 效率低下: 同步请求意味着脚本必须等待每个请求完成才能继续,这在处理大量URL时效率极低。即使添加sleep()延迟,也只是缓解了问题,并未从根本上解决同步阻塞的低效性。

解决方案:利用PHP cURL多请求并行处理

为了克服get_headers()的局限性,PHP的cURL扩展提供了一套强大的多请求(curl_multi_*)API,允许开发者并行处理多个HTTP请求。这种方式具有以下显著优势:

  • 并行处理: 脚本可以同时发起多个请求,大大减少了总执行时间。
  • 资源优化 cURL多请求可以在一定程度上复用连接,减少了连接建立和关闭的开销。
  • 更强的控制力: 提供了丰富的选项来配置请求,例如超时、代理、HTTP头等。
  • 避免连接重置: 通过并行而非顺序地分散请求,可以更有效地管理与服务器的交互,降低触发服务器端限速的风险。

cURL多请求工作原理与实现

使用cURL多请求处理多个URL的基本步骤如下:

一点PPT
一点PPT

一句话生成专业PPT,AI自动排版配图

下载

立即学习PHP免费学习笔记(深入)”;

  1. 初始化多请求句柄: 使用curl_multi_init()创建一个cURL多请求句柄。
  2. 创建并配置单个cURL句柄: 对于每个要检查的URL,使用curl_init()创建一个独立的cURL句柄,并使用curl_setopt()配置其行为。
    • CURLOPT_URL:设置请求的URL。
    • CURLOPT_FILETIME:获取远程文档的时间。
    • CURLOPT_NOBODY:设置为true时,cURL将发送一个HEAD请求,只获取响应头,不下载实际内容。这对于检查文件存在性非常高效。
    • CURLOPT_RETURNTRANSFER:设置为true时,cURL会将获取的响应作为字符串返回,而不是直接输出。
    • CURLOPT_HEADER:设置为true时,响应中会包含HTTP头信息。
  3. 将单个句柄添加到多请求句柄: 使用curl_multi_add_handle()将每个配置好的cURL句柄添加到多请求句柄中。
  4. 并行执行请求: 使用一个循环和curl_multi_exec()函数来持续执行所有请求,直到所有请求都完成。curl_multi_exec()是非阻塞的,它会尽可能地执行当前可用的请求,并通过第二个参数$still_running指示是否还有请求正在进行。
  5. 处理请求结果: 在所有请求完成后,遍历之前存储的单个cURL句柄数组。对于每个句柄,使用curl_getinfo()获取请求的详细信息,特别是HTTP状态码(CURLINFO_HTTP_CODE),以判断文件是否存在。
  6. 资源清理: 使用curl_multi_remove_handle()从多请求句柄中移除单个cURL句柄,并使用curl_multi_close()关闭多请求句柄,释放资源。

示例代码

以下是使用cURL多请求并行检查多个文件URL的示例代码:

<?php

function checkAllUrls() {
    $revisionNumber = 25;
    $minorNumber = 2;
    $buildNumber = 128;

    // 初始化cURL多请求句柄
    $multiCurl = curl_multi_init();
    $curlHandles = []; // 用于存储每个cURL句柄及其关联信息

    // 循环构建URL并创建单个cURL句柄
    for ($x = $buildNumber; $x > 0; $x--) {
        // 构建文件URL
        $combinedUrl = 'http://update.example.com/Files/Updates/6.' . $revisionNumber . '.' .  $minorNumber . '.' .  $x . '/application7_' . $revisionNumber . '_' .  $minorNumber . '_' .  $x . '_de_FullInstallerx64.exe';

        // 初始化单个cURL句柄
        $curl = curl_init();
        // 设置URL
        curl_setopt($curl, CURLOPT_URL, $combinedUrl);
        // 获取文件时间(可选)
        curl_setopt($curl, CURLOPT_FILETIME, true);
        // 只发送HEAD请求,不下载内容,高效检查文件存在性
        curl_setopt($curl, CURLOPT_NOBODY, true);
        // 将响应作为字符串返回,而不是直接输出
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
        // 包含响应头信息
        curl_setopt($curl, CURLOPT_HEADER, true);
        // 设置连接超时和请求超时,防止长时间等待
        curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 5); // 连接超时5秒
        curl_setopt($curl, CURLOPT_TIMEOUT, 10);      // 总请求超时10秒

        // 将单个cURL句柄添加到多请求句柄中
        curl_multi_add_handle($multiCurl, $curl);
        // 存储句柄及其关联的build号,以便后续处理
        $curlHandles[] = ['curl' => $curl, 'build' => $x];
    }

    // 执行所有cURL请求直到完成
    $stillRunning = null;
    do {
        // 循环执行cURL请求,直到所有请求都处理完毕
        // curl_multi_exec是非阻塞的,会处理所有可用的请求
        $mrc = curl_multi_exec($multiCurl, $stillRunning);
    } while ($stillRunning > 0 && $mrc == CURLM_OK); // 确保没有错误发生

    // 遍历所有句柄,处理请求结果
    foreach ($curlHandles as $item) {
        $curl = $item['curl'];
        $build = $item['build'];

        file_put_contents('log.txt', "Checking Build: " . $build . "\n", FILE_APPEND);

        // 获取HTTP状态码
        $httpCode = curl_getinfo($curl, CURLINFO_HTTP_CODE);
        // 获取实际请求的URL
        $effectiveUrl = curl_getinfo($curl, CURLINFO_EFFECTIVE_URL);

        if ($httpCode === 404) {
            // HTTP 404 Not Found 表示文件不存在
            $exists = "no";
            file_put_contents('log.txt', $effectiveUrl . " - " . "does not exist. \n", FILE_APPEND);
        } else if ($httpCode >= 200 && $httpCode < 300) {
            // HTTP 2xx 状态码表示请求成功,文件存在
            $exists = "yes";
            file_put_contents('log.txt', $effectiveUrl . " - " . "exists. \n", FILE_APPEND);
        } else {
            // 其他状态码,例如 5xx 服务器错误,或者连接失败等
            $exists = "unknown";
            file_put_contents('log.txt', $effectiveUrl . " - " . "status: " . $httpCode . " (could not verify existence). \n", FILE_APPEND);
        }

        // 从多请求句柄中移除当前cURL句柄并关闭它
        curl_multi_remove_handle($multiCurl, $curl);
        curl_close($curl); // 显式关闭单个cURL句柄
    }

    // 关闭cURL多请求句柄
    curl_multi_close($multiCurl);
}

// 调用函数执行检查
// checkAllUrls(); // 在实际应用中调用此函数

注意事项与最佳实践

  1. 错误处理: 在实际应用中,除了检查HTTP状态码,还应该检查curl_multi_exec()和curl_getinfo()可能返回的错误码,以处理网络问题、DNS解析失败等情况。
  2. 超时设置: CURLOPT_CONNECTTIMEOUT(连接超时)和CURLOPT_TIMEOUT(总请求超时)是关键选项,它们可以防止脚本因某个无响应的服务器而长时间阻塞。
  3. 用户代理(User-Agent): 某些服务器可能会根据User-Agent头进行过滤。设置一个合适的User-Agent(CURLOPT_USERAGENT)可以模拟浏览器行为,避免被服务器拒绝。
  4. 并发数控制: 尽管cURL多请求支持并行,但同时发起的请求数量并非越多越好。过多的并发请求仍然可能对客户端和服务器造成压力。在处理数千甚至数万个URL时,可以考虑分批处理(例如,每次处理50或100个URL),以平衡效率和资源消耗。
  5. 资源清理: 务必确保在所有操作完成后,使用curl_multi_remove_handle()移除每个句柄,并最终使用curl_multi_close()关闭多请求句柄,以释放系统资源。

总结

当PHP脚本需要高效、健壮地检查大量远程链接时,get_headers()等同步方法因其效率低下和容易触发服务器端限制而不再适用。通过采用PHP的cURL多请求机制,开发者可以实现请求的并行处理,显著提升脚本性能,有效避免ERR_CONNECTION_RESET等连接问题,并对请求过程拥有更细粒度的控制。理解并正确运用curl_multi_*函数是构建高性能网络请求处理脚本的关键。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

455

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1204

2024.04.29

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.5万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号