
本教程旨在解决php在下载特定网站图片时遇到的常见问题,特别是由于服务器端对http请求头(如user-agent)的限制。文章将详细介绍如何利用`file_get_contents`结合`stream_context_create`,以及更强大的curl库来模拟浏览器请求,从而成功下载受保护的图片资源,并提供实用的代码示例和注意事项。
1. 理解图片下载受限的原因
在PHP中尝试下载图片时,有时会发现对某些特定网站的图片无法成功获取,而其他网站则一切正常,甚至使用Python等其他语言可以成功下载。这通常不是PHP本身的问题,而是目标网站的服务器采取了防爬或防盗链措施。
最常见的原因之一是服务器会检查HTTP请求头中的User-Agent字段。User-Agent是客户端(如浏览器或脚本)在发送HTTP请求时附带的一个字符串,用于标识客户端的类型和操作系统。当服务器检测到一个非浏览器或非标准客户端的User-Agent(例如PHP的默认User-Agent可能被识别为脚本或机器人)时,它可能会拒绝服务,返回403 Forbidden错误,或者直接不返回内容。通过模拟一个常见的浏览器User-Agent,我们可以绕过这类限制。
2. 使用 file_get_contents 结合 stream_context_create
file_get_contents() 是PHP中一个非常方便的函数,用于读取文件到字符串。然而,在默认情况下,它发送的HTTP请求头可能过于简单,无法通过某些网站的验证。我们可以利用 stream_context_create() 函数来创建自定义的流上下文,从而在请求中添加或修改HTTP头。
以下是使用此方法下载图片的示例:
立即学习“PHP免费学习笔记(深入)”;
[
// 模拟一个常见的Chrome浏览器User-Agent
'header' => "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36\r\n"
]
];
// 创建流上下文
$context = stream_context_create($opts);
// 使用 file_get_contents 获取图片内容,并传入自定义上下文
// @ 符号用于抑制 file_get_contents 在失败时可能产生的警告
$image_content = @file_get_contents($img_url, false, $context);
if ($image_content === false) {
error_log("Failed to get image content from: " . $img_url);
return false;
}
// 将图片内容保存到文件
if (file_put_contents($save_path, $image_content) === false) {
error_log("Failed to save image to: " . $save_path);
return false;
}
return true;
}
// 示例用法
$image_url = 'https://www.autoopt.ru/product_pictures/big/bcb/054511.jpg';
$upload_dir = realpath(dirname(__FILE__)) . '/assets/upload_products/';
// 检查并创建保存目录
if (!is_dir($upload_dir)) {
mkdir($upload_dir, 0777, true); // 0777是权限,true表示递归创建
}
$image_name = basename($image_url); // 从URL中获取文件名
$image_fullpath = $upload_dir . $image_name; // 完整的保存路径
if (downloadImageWithContext($image_url, $image_fullpath)) {
echo "图片下载成功并保存至: " . $image_fullpath . "\n";
} else {
echo "图片下载失败。\n";
}
?>代码解析:
- $opts: 这是一个关联数组,用于定义HTTP请求的选项。'http' 键对应一个子数组,其中 'header' 键用于设置HTTP头。我们在此处模拟了一个常见的Chrome浏览器User-Agent字符串。
- stream_context_create($opts): 这个函数根据 $opts 创建一个流上下文资源。
- file_get_contents($img_url, false, $context): 这是关键一步。第三个参数 $context 告知 file_get_contents 使用我们自定义的请求上下文,从而发送带有指定User-Agent的请求。
- @file_get_contents(): 使用 @ 符号可以抑制 file_get_contents 在失败时可能产生的警告,但建议通过 if ($image_content === false) 进行明确的错误检查和日志记录。
- file_put_contents($save_path, $image_content): 这是一个高效地将字符串内容写入文件的函数。
3. 使用 cURL 库 (更灵活和强大的方案)
对于更复杂的HTTP请求场景,或者当 file_get_contents 仍然无法满足需求时,PHP的cURL扩展是更强大和灵活的选择。cURL允许你精确控制请求的各个方面,包括请求头、超时、重定向、代理、身份验证等。
以下是使用cURL下载图片并设置User-Agent的示例:











