如何在Python中安全处理大文件并记录处理进度（避免重复读取或重写整个文件）

聖光之護

发布时间：2026-02-07 14:44:39

810人浏览过

来源于php中文网

原创

如何在Python中安全处理大文件并记录处理进度（避免重复读取或重写整个文件）

python 标准库不提供“读一行删一行”的内置函数，但可通过外部进度文件记录已处理行号，实现断点续传式文件处理，避免频繁重写文件带来的性能与可靠性问题。

在实际开发中，尤其是处理日志、批量任务或数据导入场景时，常需确保程序意外中断（如断电、崩溃）后能从中断处继续执行，而非从头开始或丢失状态。直接“边读边删行”看似直观，但文件系统本身不支持随机删除某一行——因为文本文件是连续字节流，删除中间一行需重写其后的全部内容，开销大且非原子操作，极易因中断导致文件损坏。

因此，更稳健、专业的做法是分离“状态跟踪”与“数据存储”：保持原始文件只读不变，用独立的轻量级机制（如进度文件）持久化处理位置。以下是推荐实现方案：

影谱

汉语电影AI辅助创作平台

下载

✅ 推荐方案：基于行号的断点续传处理

def process_file(filepath, progress_filepath):
    # 1. 读取上次处理到的行号（默认为0）
    try:
        with open(progress_filepath, 'r') as pf:
            last_processed = int(pf.read().strip())
    except (FileNotFoundError, ValueError):
        last_processed = 0

    # 2. 逐行读取原文件（使用生成器避免内存爆炸）
    with open(filepath, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, start=1):
            if line_num <= last_processed:
                continue  # 跳过已处理行

            # 3. 执行业务逻辑（此处仅为示例）
            print(f"✅ Processing line {line_num}: {line.rstrip()}")
            # your_processing_logic(line)

            # 4. 原子化更新进度（写入后立即刷新，降低丢失风险）
            with open(progress_filepath, 'w') as pf:
                pf.write(str(line_num))
                pf.flush()  # 确保写入磁盘，非仅缓冲区

⚠️ 关键注意事项

不要用 readlines() 加载大文件到内存：示例中改用 for line in file 迭代器，内存占用恒定 O(1)，适用于 GB 级文件；
进度文件必须及时刷盘：调用 .flush() 强制落盘，配合 os.fsync() 可进一步提升可靠性（尤其在 Linux/macOS 上）；
考虑并发安全：若多进程/线程访问同一进度文件，需加锁（如 threading.Lock 或文件锁 portalocker）；
备份原始文件：生产环境建议先对源文件做快照或校验（如 hashlib.md5），防止误操作；
替代方案补充：对极高可靠性要求场景，可选用 SQLite 存储每行处理状态（含时间戳、结果、错误信息），比纯文本进度文件更健壮。

该方法兼顾简洁性、可维护性与鲁棒性，是 Python 文件批处理工程实践中的通用范式。

如何在“外部管理环境”中正确安装 Pipenv

如何使用 Nginx 配置反向代理以集成机器学习驱动的 Web 应用防火墙

Linux 如何用 conntrack -D -s IP 清空指定源IP的连接跟踪条目

subprocess 如何在 timeout 后杀死整个进程树（Windows/Linux）

subprocess 如何在超时后杀死整个进程组（Windows/Linux）

相关标签:

linux python 字节 mac macos 内存占用 cos 标准库 for 线程并发 macos sqlite linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 GUI 自动化脚本中实现全局按键唤醒（无需手动聚焦终端）下一篇：暂无

作者最新文章

墨墨背单词怎么删除之前选定的书

2026-02-04 16:53

如何在 pytest 测试函数中延迟初始化测试对象（而非在参数收集阶段）

2026-02-04 16:59

如何使用 Selenium 提取指定 div 中所有图片链接

2026-02-04 17:24

如何使用正则表达式提取带前后空格的域名字符串

2026-02-04 17:28

配音演员履历意外泄密！《异度神剑》2026年或有新作

2026-02-04 17:31

如何在 Pandas 中跨多个列高效匹配两个 DataFrame 的行组合

2026-02-04 17:35

如何根据用户选择的请假类型动态限制日期范围

2026-02-04 17:35

如何在 Go 中优雅地扩展 time.Time 类型并避免重复类型转换

2026-02-04 17:37

如何在 Go 中安全并发请求多个 URL（避免 EOF JSON 错误）

2026-02-04 17:38

skyworth万能遥控器如何使用

2026-02-04 17:38

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

macOS怎么切换用户账户

在 macOS 系统中，可通过多种方式切换用户账户。如点击苹果图标选择 “系统偏好设置”，打开 “用户与群组” 进行切换；或启用快速用户切换功能，通过菜单栏或控制中心的账户名称切换；还能使用快捷键 “Control+Command+Q” 锁定屏幕后切换。

348

2025.05.09

磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制，就是管理员可以为用户所能使用的磁盘空间进行配额限制，每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容，教程，供大家免费下载安装。

1478

2023.06.21

如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章，还有相关的下载、课程，大家可以免费体验。

710

2023.06.29

linux find

find是linux命令，它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合，只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression，在命令列上第一个 - ( ) , ! 之前的部分为 path，之后的是 expression。还有指DOS 命令 find，Excel 函数 find等。本站专题提供linux find相关教程文章，还有相关

296

2023.06.30

linux修改文件名

本专题为大家提供linux修改文件名相关的文章，这些文章可以帮助用户快速轻松地完成文件名的修改工作，大家可以免费体验。

784

2023.07.05

linux系统安装教程

linux系统是一种可以免费使用，自由传播，多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章，大家可以免费体验。

579

2023.07.06

linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统，存在着许多不同的Linux版本，但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中，比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

552

2023.07.20