0

0

深入理解Python requests库的重定向处理与3xx状态码获取

聖光之護

聖光之護

发布时间:2025-10-30 12:34:06

|

686人浏览过

|

来源于php中文网

原创

深入理解Python requests库的重定向处理与3xx状态码获取

python requests库在默认情况下会自动跟随http重定向,导致无法直接获取3xx系列状态码。本文将详细解释这一机制,并提供通过设置allow_redirects=false来禁用自动重定向的方法,从而准确捕获原始的重定向状态码,这对于需要分析链接跳转行为的场景至关重要。

在进行网络请求时,我们常常需要获取HTTP响应的状态码来判断请求结果。然而,使用Python的requests库时,有时会发现对于某些已知会发生重定向的URL(例如,返回301或302状态码),我们最终却收到了200 OK的状态码。这通常不是因为URL没有重定向,而是因为requests库的默认行为——自动跟随重定向。

1. 理解HTTP重定向与requests库的默认行为

HTTP重定向是一种常见的Web机制,服务器通过返回3xx系列状态码(如301 Moved Permanently、302 Found、307 Temporary Redirect、308 Permanent Redirect)来告知客户端请求的资源已移动到新的URL。客户端(如浏览器或requests库)在收到这些状态码后,会根据响应头中的Location字段自动向新的URL发起请求。

requests库为了方便用户,默认情况下会将allow_redirects参数设置为True。这意味着当你调用requests.get()时,如果服务器返回了重定向状态码,requests会自动发起新的请求去访问重定向后的URL,直到遇到非重定向状态码(如200 OK,404 Not Found等)或达到最大重定向次数限制。最终,response.status_code将是最终目的地的状态码,而原始的3xx状态码则会被“隐藏”。

2. 常见问题:无法捕获重定向状态码

许多开发者在尝试检测URL状态时会遇到以下困惑:

立即学习Python免费学习笔记(深入)”;

import requests

url_to_check = "http://example.com/old-page" # 假设这个URL会302重定向到 /new-page
response = requests.get(url_to_check, timeout=5)
print(response.status_code) # 预期302,但可能输出200

上述代码中,如果http://example.com/old-page确实发生了302重定向,requests库会自动跟随到http://example.com/new-page,并返回new-page的响应状态码,通常是200。这就导致我们无法直接获取到原始的302状态码。

WisPaper
WisPaper

复旦大学研发的AI学术搜索工具,5分钟内筛选1000篇论文

下载

3. 解决方案:禁用自动重定向

要解决这个问题,我们需要显式地告诉requests库不要自动跟随重定向。这可以通过将requests.get()(或其他请求方法,如post、head等)的allow_redirects参数设置为False来实现。

import requests

url_to_check = "http://example.com/old-page" # 假设这个URL会302重定向到 /new-page
response = requests.get(url_to_check, timeout=5, allow_redirects=False)
print(response.status_code) # 现在将准确输出302

通过设置allow_redirects=False,requests库会在收到第一个重定向响应时就停止,并将其作为最终响应返回。此时,response.status_code将准确反映原始的重定向状态码(如301、302等)。

4. 完整的示例代码

以下是一个结合了CSV文件处理的完整示例,演示如何准确检测URL状态,包括重定向状态码:

import csv
import requests

def check_url_status(url: str) -> str:
    """
    检查URL的状态,并返回描述性状态字符串。
    通过设置allow_redirects=False来捕获原始的重定向状态码。
    """
    try:
        # 禁用自动重定向,以便捕获3xx状态码
        response = requests.get(url, timeout=5, allow_redirects=False)
        status_code = response.status_code

        # 如果需要查看重定向历史,可以在这里检查 response.history
        # 例如:
        # if response.history:
        #     print(f"URL: {url} - 重定向路径: {[r.url for r in response.history]}")

        if 200 <= status_code <= 299:
            return f"活动 ({status_code})"
        elif status_code == 300:
            return f"多重选择重定向 ({status_code})"
        elif status_code == 301:
            return f"永久移动重定向 ({status_code})"
        elif status_code == 302:
            return f"临时移动重定向 ({status_code})"
        elif 303 <= status_code <= 399: # 涵盖303 See Other, 307 Temporary Redirect, 308 Permanent Redirect
            return f"重定向 ({status_code})"
        elif 400 <= status_code <= 499:
            return f"客户端错误 ({status_code})"
        elif 500 <= status_code <= 599:
            return f"服务器错误 ({status_code})"
        else:
            return f"未知状态 ({status_code})"
    except requests.exceptions.Timeout:
        return "错误: 请求超时"
    except requests.exceptions.ConnectionError:
        return "错误: 连接失败"
    except requests.exceptions.RequestException as e:
        return f"错误: {e}"
    except Exception as e:
        return f"未知错误: {e}"

# 假设 urls.csv 文件存在,并且每行包含一个待检查的URL。
# 示例 urls.csv 内容:
# http://www.google.com
# http://httpbin.org/status/404
# http://httpbin.org/redirect-to?url=http://example.com
# http://www.nonexistent-domain-12345.com

# 读取URL列表
urls_to_check = []
try:
    with open("urls.csv", "r", encoding="utf-8") as csvfile:
        reader = csv.reader(csvfile)
        for row in reader:
            if row: # 确保行不为空
                urls_to_check.append(row[0].strip())
except FileNotFoundError:
    print("错误: urls.csv 文件未找到。请确保文件存在并包含URL列表。")
    exit()
except Exception as e:
    print(f"读取urls.csv时发生错误: {e}")
    exit()

# 检查每个URL并写入结果
if urls_to_check:
    with open("url_status.csv", "w", newline="", encoding="utf-8") as outfile:
        writer = csv.writer(outfile)
        writer.writerow(["URL", "状态"])
        for url in urls_to_check:
            status = check_url_status(url)
            print(f"检查 {url}: {status}") # 实时输出进度
            writer.writerow([url, status])
    print("\nURL状态已成功写入 url_status.csv!")
else:
    print("未从 urls.csv 中读取到任何URL。")

5. 注意事项与最佳实践

  • 何时禁用重定向: 当你的目标是分析链接的原始跳转行为,例如进行SEO审计、死链检测、追踪短链接的真实目的地、或需要精确获取每个HTTP请求的原始状态码时,应设置allow_redirects=False。
  • 何时允许重定向: 在大多数获取最终页面内容或API响应的场景下,保持allow_redirects=True(默认值)更为方便,因为它会自动处理跳转,直接返回最终资源的响应。
  • 检查重定向历史: 即使allow_redirects=True,你仍然可以通过response.history属性获取一个包含所有重定向请求的响应对象列表。这对于分析完整的重定向链非常有用。
    response = requests.get("http://shorturl.com/xyz", allow_redirects=True)
    if response.history:
        for resp in response.history:
            print(f"重定向自: {resp.url}, 状态码: {resp.status_code}")
        print(f"最终URL: {response.url}, 最终状态码: {response.status_code}")
  • 处理多种重定向: HTTP重定向类型多样,包括301(永久移动)、302(临时移动)、303(See Other,通常用于POST请求后重定向到GET请求)、307(Temporary Redirect,保留请求方法)、308(Permanent Redirect,保留请求方法)。在解析状态码时,应根据业务需求进行区分。
  • 异常处理: requests库在网络请求过程中可能抛出多种异常,例如requests.exceptions.Timeout(请求超时)、requests.exceptions.ConnectionError(连接失败)、requests.exceptions.HTTPError(HTTP错误,如4xx/5xx系列),以及更通用的requests.exceptions.RequestException。建议进行细致的异常捕获,以提高代码的健壮性。
  • 编码问题: 在处理CSV文件时,显式指定encoding="utf-8"是一个良好的习惯,可以避免因字符编码不匹配导致的问题。

总结

requests库的allow_redirects参数是控制HTTP重定向行为的关键。通过将其设置为False,我们可以绕过默认的自动重定向机制,从而准确捕获到服务器返回的原始3xx系列状态码。理解并正确使用这个参数,对于需要精确分析网络请求流程和URL跳转行为的场景至关重要。根据具体的应用需求,选择是否禁用自动重定向,将使你的网络请求处理更加灵活和精确。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
location.assign
location.assign

在前端开发中,我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign,我们可以在当前窗口或者iframe中加载一个新的URL地址,并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容,供大家免费下载使用。

232

2023.06.27

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

507

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

458

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3803

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

3001

2024.08.16

seo页面描述
seo页面描述

一个好的SEO页面描述应该包含关键词、简明扼要地概括网页的主题和内容、具有吸引力、与网页内容相符,并且是独特的。它不仅可以帮助搜索引擎了解网页的内容,还可以吸引用户点击进入网页。因此,编写一个优秀的SEO页面描述对于网页的排名和点击率都非常重要。

220

2023.08.31

wordpress seo
wordpress seo

WordPress网站SEO优化方法有:1、选择一个SEO友好的主题,具有清晰的代码结构,快速的加载速度和响应式设计;2、使用SEO插件,优化你的标题标签,元描述,关键字,XML站点地图等;3、优化你的内容,内容是SEO优化的核心;4、优化你的网站速度;5、创建友好的URL;6、使用内部链接;7、优化图像;8、使用社交媒体;9、定期更新你的网站;10、监控和分析你的网站等等。

436

2023.09.18

SEO诊断方法有哪些
SEO诊断方法有哪些

SEO诊断是一个综合性的工作,需要从网站结构、关键词优化、内容质量、外部链接、网站速度、移动友好性等多个方面进行评估和优化。通过进行SEO诊断,可以帮助网站提高在搜索引擎中的排名,从而增加流量和曝光度 。

298

2023.10.09

bootstrap安装教程
bootstrap安装教程

本专题整合了bootstrap安装相关教程,阅读专题下面的文章了解更多详细操作教程。

22

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号