0

0

如何在Python中安全处理大文件并持久化读取进度

聖光之護

聖光之護

发布时间:2026-02-07 10:26:10

|

174人浏览过

|

来源于php中文网

原创

如何在Python中安全处理大文件并持久化读取进度

python标准库不提供“读一行即删一行”的文件操作函数,但可通过外部进度文件记录已处理行号,实现断点续传式文件处理,避免重复读写全量数据。

在实际生产环境中,尤其是处理日志、批量任务或ETL流水线时,常需保证程序崩溃(如意外断电、进程被杀)后能从中断处继续执行,而非从头开始或丢失状态。直接修改原文件(如每次读取后重写剩余内容)不仅效率低下(O(n²)时间复杂度)、线程不安全,还存在数据丢失风险——若写入中途失败,原始文件可能已被截断。

更健壮的替代方案是解耦“读取”与“状态管理”:保持源文件只读不变,将处理进度单独持久化。推荐采用以下两种工业级实践:

✅ 方案一:基于行号的轻量进度追踪(推荐用于结构化文本)

使用独立的进度文件(如 progress.txt)仅保存最后成功处理的行号。启动时读取该值,跳过此前所有行:

Postme
Postme

Postme是一款强大的AI写作工具,可以帮助您快速生成高质量、原创的外贸营销文案,助您征服全球市场。

下载
def process_file_with_checkpoint(filepath: str, progress_filepath: str):
    # 读取上次中断位置
    try:
        with open(progress_filepath, 'r') as f:
            last_line = int(f.read().strip())
    except (FileNotFoundError, ValueError):
        last_line = 0

    # 流式读取,避免一次性加载全部内容(适用于大文件)
    with open(filepath, 'r') as f:
        for line_num, line in enumerate(f, start=1):
            if line_num <= last_line:
                continue
            try:
                # ✅ 在此处执行核心业务逻辑(如解析、入库、调用API等)
                print(f"✅ Processing line {line_num}: {line.rstrip()}")

                # 模拟可能失败的操作
                # process_line(line)

                # ✅ 立即更新进度(原子写入,降低丢失风险)
                with open(progress_filepath, 'w') as pf:
                    pf.write(str(line_num))

            except Exception as e:
                print(f"❌ Error at line {line_num}: {e}")
                raise  # 或选择记录错误后继续

# 使用示例
process_file_with_checkpoint("data.txt", "progress.txt")
⚠️ 注意事项: 进度文件写入应尽量轻量(单行整数),并确保写入后调用 os.fsync() 可进一步增强可靠性(尤其在Linux上); 若需更高一致性,可结合临时文件+原子重命名(如写入 progress.tmp 后 os.replace()); 对于超大文件(GB级),避免 readlines() 全加载,改用逐行迭代器(如示例所示)。

✅ 方案二:归档已处理行(适合需审计或回溯场景)

将每行处理结果追加至归档文件(如 processed.log),源文件永久保留。重启时通过对比两文件行数确定起点:

立即学习Python免费学习笔记(深入)”;

import os

def archive_and_process(source: str, archive: str):
    source_lines = sum(1 for _ in open(source))
    archive_lines = sum(1 for _ in open(archive)) if os.path.exists(archive) else 0
    start_at = archive_lines + 1

    with open(source, 'r') as src, open(archive, 'a') as arc:
        for i, line in enumerate(src, start=1):
            if i < start_at:
                continue
            # 处理逻辑
            result = f"[{i}] {line.rstrip()}"
            print(result)
            # 归档(追加写入,天然幂等)
            arc.write(result + '\n')

? 总结

  • 不要尝试“边读边删”原文件操作系统层面无原子性支持,易致数据损坏;
  • 优先选用“外部进度文件”方案:简单、高效、易调试,满足95%的断点续传需求;
  • 关键操作后立即落盘进度:比“处理完全部再存”更安全;
  • 补充容错设计:如添加重试机制、错误日志隔离、行号校验等,可显著提升鲁棒性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1478

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

710

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

296

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

784

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

579

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

552

2023.07.20

linux查看ip命令
linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容,感兴趣的朋友可以免费下载体验试试。

301

2023.07.20

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.6万人学习

Git 教程
Git 教程

共21课时 | 3.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号