Python 大文件分片上传的断点续传

冷漠man

发布时间：2026-02-15 15:12:11

816人浏览过

来源于php中文网

原创

requests直传大文件失败因无断点续传能力，需客户端分片上传、记录offset、服务端配合校验合并；须用seek/read切片、持久化upload_id与已传part状态、控制并发数、校验响应及etag、严格按序合并。

python 大文件分片上传的断点续传

为什么 `requests` 直传大文件会失败

因为默认 HTTP 连接没有断点续传能力，上传中途断开就全得重来；requests 本身也不维护分片状态或校验逻辑。你看到的 ConnectionError、Timeout 或服务端返回 408 Request Timeout，基本都是这个原因。

真正能做断点续传的，是服务端配合客户端按块上传 + 校验 + 合并。Python 侧要做的，是把文件切片、记录已传 offset、失败时跳过已传块。

别用 requests.post(..., data=open(...)) 直传几 GB 文件——它会一次性读进内存，还无法中断恢复
必须自己控制分片读取：用 open(..., 'rb') + .seek() + .read(chunk_size)
服务端需提供「查询已传分片」接口（比如 GET /upload/status?upload_id=xxx），否则客户端根本不知道该从哪继续

`upload_id` 和分片序号怎么生成和管理

这不是 Python 自动给的，得和服务端约定规则。常见做法是客户端首次请求获取一个全局唯一 upload_id（比如 UUIDv4），后续所有分片都带上它；每个分片带 part_number（从 1 开始整数）和 content_md5（可选但推荐）。

本地状态不能只靠内存存——进程重启就丢。最轻量做法是写个 JSON 文件记录：upload_state_{upload_id}.json，内容类似：

jQuery+echarts上传图片生成文字标签云代码

一款很稀有的jQuery+echarts上传图片生成文字标签云代码，基于echarts图表插件和jQuery实现根据图片样式生成彩色文字标签云特效，点击标签关键词还可以放大。

下载

立即学习“Python免费学习笔记（深入）”；

{"upload_id": "a1b2c3", "file_path": "/tmp/big.zip", "chunk_size": 5242880, "uploaded_parts": [1, 2, 4], "total_parts": 12}

upload_id 建议用 uuid.uuid4().hex，避免时间戳+pid 等易冲突组合
分片序号必须严格连续且从 1 开始，有些对象存储（如腾讯云 COS）要求 part_number 是正整数，传 0 或字符串会报 InvalidArgument
不要在每次上传前重新计算全部 MD5——只对当前 chunk 计算，存进状态文件里，用于失败重试时快速比对

并发上传分片反而更慢甚至被限流

不是线程越多越快。HTTP 连接复用、服务端并发阈值、本地 socket 资源都会卡住。实测多数云厂商对单 upload_id 的并发分片数限制在 5–10 之间，超了可能返回 429 Too Many Requests 或直接断连。

用 concurrent.futures.ThreadPoolExecutor(max_workers=3) 比 max_workers=20 更稳
每个分片上传后必须检查响应状态码——200 或 201 才算成功，200 但 body 里含 "code": "PartAlreadyExists" 也要视为成功（说明服务端已存）
加指数退避重试：第一次失败等 1s，第二次 2s，第三次 4s，最多 3 次；别用固定 sleep，也别无脑 retry

合并分片失败的三个典型原因

前面传完 99 个分片，最后 POST /complete 报错，大概率不是网络问题，而是参数不匹配。

服务端要求 part_number 必须按升序排列，传 [{"part_number":3,"etag":"..."},{"part_number":1,"etag":"..."}] 会直接拒掉
ETag 不是简单 md5(chunk)，很多对象存储返回的是 base64(md5(chunk)) 或 multipart 专属 hash，必须用上传响应头里的 Etag 字段原样回传
合并请求的 Content-Type 错了，比如该发 application/json 却发了 text/plain，返回 415 Unsupported Media Type

断点续传最难的不是传，是状态对齐——客户端认为“已传”，服务端没记上，或者反过来。上线前务必用人工 kill 进程 + 断网方式，真实模拟中断场景跑几轮。

Python pendulum vs arrow vs dateutil 的日期处理

Python 插件化架构：基于 Entry Points 的扩展机制实现

Pandas 中按行执行布尔运算的高效方法

Python 配置复杂度量化的方法

Python 告警收敛的规则配置

相关标签:

python json 字符串接口线程切片并发对象 http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Django URL命名缺失导致NoReverseMatch错误的完整解决方案下一篇：暂无

作者最新文章

红米手机微信电话铃声不响_红米手机微信铃声设置修复教程

2026-02-13 10:47

HTTPS://MANWA.3ME漫蛙MANWA怎么切漫蛙直达入口

2026-02-13 10:51

发票抽奖是专票还是普票发票抽奖什么时候开始实施

2026-02-13 11:08

HTTP://YANDEX.COM YANDEX COM入口

2026-02-13 11:08

发票抽奖在税务系统怎么参加发票抽奖注意事项和技巧

2026-02-13 11:26

华为为什么卖掉荣耀荣耀独立出售原因解析

2026-02-13 12:02

战神三部曲重制版预告公布战神三部曲重制版最新消息

2026-02-13 12:07

崩坏:星穹铁道4.0最新攻略星铁4.0全流程指南【一图流】

2026-02-13 12:07

有兽焉全新OP播放链接有兽焉新OP官方画面网页入口

2026-02-13 12:17

rsync 报 "no space left on device" 的目标磁盘 inode / 权限检查

2026-02-13 14:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

440

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23