如何在Python中安全处理大文件并持久化读取进度

聖光之護

发布时间：2026-02-07 10:26:10

174人浏览过

来源于php中文网

原创

如何在Python中安全处理大文件并持久化读取进度

python 标准库不提供“读一行即删一行”的文件操作函数，但可通过外部进度文件记录已处理行号，实现断点续传式文件处理，避免重复读写全量数据。

在实际生产环境中，尤其是处理日志、批量任务或ETL流水线时，常需保证程序崩溃（如意外断电、进程被杀）后能从中断处继续执行，而非从头开始或丢失状态。直接修改原文件（如每次读取后重写剩余内容）不仅效率低下（O(n²)时间复杂度）、线程不安全，还存在数据丢失风险——若写入中途失败，原始文件可能已被截断。

更健壮的替代方案是解耦“读取”与“状态管理”：保持源文件只读不变，将处理进度单独持久化。推荐采用以下两种工业级实践：

✅ 方案一：基于行号的轻量进度追踪（推荐用于结构化文本）

使用独立的进度文件（如 progress.txt）仅保存最后成功处理的行号。启动时读取该值，跳过此前所有行：

Postme

Postme是一款强大的AI写作工具，可以帮助您快速生成高质量、原创的外贸营销文案，助您征服全球市场。

下载

def process_file_with_checkpoint(filepath: str, progress_filepath: str):
    # 读取上次中断位置
    try:
        with open(progress_filepath, 'r') as f:
            last_line = int(f.read().strip())
    except (FileNotFoundError, ValueError):
        last_line = 0

    # 流式读取，避免一次性加载全部内容（适用于大文件）
    with open(filepath, 'r') as f:
        for line_num, line in enumerate(f, start=1):
            if line_num <= last_line:
                continue
            try:
                # ✅ 在此处执行核心业务逻辑（如解析、入库、调用API等）
                print(f"✅ Processing line {line_num}: {line.rstrip()}")

                # 模拟可能失败的操作
                # process_line(line)

                # ✅ 立即更新进度（原子写入，降低丢失风险）
                with open(progress_filepath, 'w') as pf:
                    pf.write(str(line_num))

            except Exception as e:
                print(f"❌ Error at line {line_num}: {e}")
                raise  # 或选择记录错误后继续

# 使用示例
process_file_with_checkpoint("data.txt", "progress.txt")

⚠️ 注意事项：进度文件写入应尽量轻量（单行整数），并确保写入后调用 os.fsync() 可进一步增强可靠性（尤其在Linux上）；若需更高一致性，可结合临时文件+原子重命名（如写入 progress.tmp 后 os.replace()）；对于超大文件（GB级），避免 readlines() 全加载，改用逐行迭代器（如示例所示）。

✅ 方案二：归档已处理行（适合需审计或回溯场景）

将每行处理结果追加至归档文件（如 processed.log），源文件永久保留。重启时通过对比两文件行数确定起点：

立即学习“Python免费学习笔记（深入）”；

import os

def archive_and_process(source: str, archive: str):
    source_lines = sum(1 for _ in open(source))
    archive_lines = sum(1 for _ in open(archive)) if os.path.exists(archive) else 0
    start_at = archive_lines + 1

    with open(source, 'r') as src, open(archive, 'a') as arc:
        for i, line in enumerate(src, start=1):
            if i < start_at:
                continue
            # 处理逻辑
            result = f"[{i}] {line.rstrip()}"
            print(result)
            # 归档（追加写入，天然幂等）
            arc.write(result + '\n')

? 总结

不要尝试“边读边删”原文件：操作系统层面无原子性支持，易致数据损坏；
优先选用“外部进度文件”方案：简单、高效、易调试，满足95%的断点续传需求；
关键操作后立即落盘进度：比“处理完全部再存”更安全；
补充容错设计：如添加重试机制、错误日志隔离、行号校验等，可显著提升鲁棒性。

如何在“外部管理环境”中正确安装 Pipenv

如何使用 Nginx 配置反向代理以集成机器学习驱动的 Web 应用防火墙

Linux 如何用 conntrack -D -s IP 清空指定源IP的连接跟踪条目

subprocess 如何在 timeout 后杀死整个进程树（Windows/Linux）

subprocess 如何在超时后杀死整个进程组（Windows/Linux）

相关标签:

linux python 操作系统 ai 数据丢失标准库线程 etl linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高效查找三维包围盒间全部交集的优化方法下一篇：暂无

作者最新文章

墨墨背单词怎么删除之前选定的书

2026-02-04 16:53

如何在 pytest 测试函数中延迟初始化测试对象（而非在参数收集阶段）

2026-02-04 16:59

如何使用 Selenium 提取指定 div 中所有图片链接

2026-02-04 17:24

如何使用正则表达式提取带前后空格的域名字符串

2026-02-04 17:28

配音演员履历意外泄密！《异度神剑》2026年或有新作

2026-02-04 17:31

如何在 Pandas 中跨多个列高效匹配两个 DataFrame 的行组合

2026-02-04 17:35

如何根据用户选择的请假类型动态限制日期范围

2026-02-04 17:35

如何在 Go 中优雅地扩展 time.Time 类型并避免重复类型转换

2026-02-04 17:37

如何在 Go 中安全并发请求多个 URL（避免 EOF JSON 错误）

2026-02-04 17:38

skyworth万能遥控器如何使用

2026-02-04 17:38

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制，就是管理员可以为用户所能使用的磁盘空间进行配额限制，每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容，教程，供大家免费下载安装。

1478

2023.06.21

如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章，还有相关的下载、课程，大家可以免费体验。

710

2023.06.29

linux find

find是linux命令，它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合，只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression，在命令列上第一个 - ( ) , ! 之前的部分为 path，之后的是 expression。还有指DOS 命令 find，Excel 函数 find等。本站专题提供linux find相关教程文章，还有相关

296

2023.06.30

linux修改文件名

本专题为大家提供linux修改文件名相关的文章，这些文章可以帮助用户快速轻松地完成文件名的修改工作，大家可以免费体验。

784

2023.07.05

linux系统安装教程

linux系统是一种可以免费使用，自由传播，多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章，大家可以免费体验。

579

2023.07.06

linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统，存在着许多不同的Linux版本，但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中，比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

552

2023.07.20