0

0

如何在Python中安全处理大文件并记录处理进度(避免重复读取或重写整个文件)

聖光之護

聖光之護

发布时间:2026-02-07 14:44:39

|

810人浏览过

|

来源于php中文网

原创

如何在Python中安全处理大文件并记录处理进度(避免重复读取或重写整个文件)

python标准库不提供“读一行删一行”的内置函数,但可通过外部进度文件记录已处理行号,实现断点续传式文件处理,避免频繁重写文件带来的性能与可靠性问题。

在实际开发中,尤其是处理日志、批量任务或数据导入场景时,常需确保程序意外中断(如断电、崩溃)后能从中断处继续执行,而非从头开始或丢失状态。直接“边读边删行”看似直观,但文件系统本身不支持随机删除某一行——因为文本文件是连续字节流,删除中间一行需重写其后的全部内容,开销大且非原子操作,极易因中断导致文件损坏。

因此,更稳健、专业的做法是分离“状态跟踪”与“数据存储”:保持原始文件只读不变,用独立的轻量级机制(如进度文件)持久化处理位置。以下是推荐实现方案:

影谱
影谱

汉语电影AI辅助创作平台

下载

✅ 推荐方案:基于行号的断点续传处理

def process_file(filepath, progress_filepath):
    # 1. 读取上次处理到的行号(默认为0)
    try:
        with open(progress_filepath, 'r') as pf:
            last_processed = int(pf.read().strip())
    except (FileNotFoundError, ValueError):
        last_processed = 0

    # 2. 逐行读取原文件(使用生成器避免内存爆炸)
    with open(filepath, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, start=1):
            if line_num <= last_processed:
                continue  # 跳过已处理行

            # 3. 执行业务逻辑(此处仅为示例)
            print(f"✅ Processing line {line_num}: {line.rstrip()}")
            # your_processing_logic(line)

            # 4. 原子化更新进度(写入后立即刷新,降低丢失风险)
            with open(progress_filepath, 'w') as pf:
                pf.write(str(line_num))
                pf.flush()  # 确保写入磁盘,非仅缓冲区

⚠️ 关键注意事项

  • 不要用 readlines() 加载大文件到内存:示例中改用 for line in file 迭代器,内存占用恒定 O(1),适用于 GB 级文件;
  • 进度文件必须及时刷盘:调用 .flush() 强制落盘,配合 os.fsync() 可进一步提升可靠性(尤其在 Linux/macOS 上);
  • 考虑并发安全:若多进程/线程访问同一进度文件,需加锁(如 threading.Lock 或文件锁 portalocker);
  • 备份原始文件:生产环境建议先对源文件做快照或校验(如 hashlib.md5),防止误操作;
  • 替代方案补充:对极高可靠性要求场景,可选用 SQLite 存储每行处理状态(含时间戳、结果、错误信息),比纯文本进度文件更健壮。

该方法兼顾简洁性、可维护性与鲁棒性,是 Python 文件批处理工程实践中的通用范式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

macOS怎么切换用户账户
macOS怎么切换用户账户

在 macOS 系统中,可通过多种方式切换用户账户。如点击苹果图标选择 “系统偏好设置”,打开 “用户与群组” 进行切换;或启用快速用户切换功能,通过菜单栏或控制中心的账户名称切换;还能使用快捷键 “Control+Command+Q” 锁定屏幕后切换。

348

2025.05.09

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1478

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

710

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

296

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

784

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

579

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

552

2023.07.20

Golang处理数据库错误教程合集
Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.02.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.6万人学习

Git 教程
Git 教程

共21课时 | 3.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号