0

0

如何正确使用 Python requests 下载受保护的 PDF 文件

碧海醫心

碧海醫心

发布时间:2026-02-08 18:54:43

|

295人浏览过

|

来源于php中文网

原创

如何正确使用 Python requests 下载受保护的 PDF 文件

本文详解通过设置关键请求头(user-agent 和 accept-language)并采用流式下载方式,解决 requests 无法正常下载 adgm 等严格反爬网站 pdf 的常见问题,确保文件完整性与可读性。

在使用 requests 库下载 PDF 文件时,看似简单的 GET 请求常因目标网站的反爬机制而失败——下载的文件虽有大小,却无法被 Adobe Reader 或系统预览器打开,提示“已损坏”或“无法打开此文档”。根本原因往往不是网络或代码逻辑错误,而是服务器端对 HTTP 请求头进行了校验:仅提供 User-Agent 不足以通过验证,还需显式声明 Accept-Language,且 URL 参数应与请求头分离处理,避免拼接污染。

以下是一个经过实测、可稳定下载 ADGM 官网 PDF 的专业方案:

import requests

PDF_NAME = "alpha-development-middle-east-ltd-penalty-notice-redacted.pdf"
BASE_URL = "https://www.adgm.com/documents/operating-in-adgm/ongoing-obligation/enforcement/"

# 分离 URL 路径与查询参数,提升可维护性与兼容性
url = BASE_URL + PDF_NAME
params = {
    "la": "en",
    "hash": "5EA2DA7D1492D105375580EEF2FB088F"
}

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 14_3_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Safari/605.1.15",
    "Accept-Language": "en-GB,en;q=0.9,en-US;q=0.8,pt;q=0.7"
}

# 启用 stream=True 并分块写入,避免内存溢出 & 提升大文件鲁棒性
chunk_size = 32 * 1024  # 32KB 每次读取
with requests.get(url, headers=headers, params=params, stream=True) as response:
    response.raise_for_status()  # 自动抛出 4xx/5xx 错误,便于调试
    with open(PDF_NAME, "wb") as f:
        for chunk in response.iter_content(chunk_size=chunk_size):
            if chunk:  # 过滤空块
                f.write(chunk)

关键要点说明:

  • Accept-Language 是必需项:ADGM 等政府/监管类网站常依赖该字段判断客户端合法性,缺失将导致返回 HTML 登录页或空响应(表面成功但内容为错误页面,导致 PDF 损坏)。
  • 使用 params 参数而非手动拼接 URL:避免特殊字符编码错误(如 & =),同时让 requests 自动处理 URL 编码。
  • 务必启用 stream=True + iter_content():防止大文件占用过多内存;直接写 response.content 可能因响应体被截断或含隐藏重定向内容而损坏文件。
  • 调用 response.raise_for_status():及时捕获 HTTP 错误(如 403 Forbidden、404 Not Found),避免静默失败。

⚠️ 额外建议:

BgSub
BgSub

免费的AI图片背景去除工具

下载

立即学习Python免费学习笔记(深入)”;

  • 若仍失败,可尝试抓包(如 Chrome DevTools → Network → 查看真实请求的 Headers),复刻完整请求头(包括 Referer、Sec-Fetch-* 等);
  • 对于高频下载场景,添加 time.sleep(1) 避免触发频率限制;
  • 生产环境建议增加超时控制:timeout=(3, 30)(3 秒连接,30 秒读取)。

遵循以上方法,即可稳定、可靠地下载受严格访问控制的 PDF 文档,兼顾健壮性与可维护性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

899

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

768

2023.11.06

chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

899

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

768

2023.11.06

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

444

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

429

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

2759

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2369

2024.08.16

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

67

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号