0

0

如何安全地在异步 Python 中并发写入多个文件(避免数据损坏)

心靈之曲

心靈之曲

发布时间:2026-01-31 14:03:19

|

304人浏览过

|

来源于php中文网

原创

如何安全地在异步 Python 中并发写入多个文件(避免数据损坏)

本文详解使用 `aiofiles` 替代 `aiofile` 并配合细粒度 `asyncio.lock` 实现线程安全、顺序一致的异步批量文件写入,彻底解决因竞态导致的文件内容错乱、行首截断与覆盖问题。

在异步 I/O 场景中,并发写入多个文件时若缺乏恰当的同步机制,极易引发数据损坏——典型表现为:输出文件中单行文本被随机截断、多线程写入内容相互覆盖、换行符错位,甚至部分写入丢失。您遇到的问题(AIOFile 下 question_output.txt 与 answer_output.txt 数据混乱)根本原因在于:aiofile 的底层实现不保证跨协程的写入原子性,且其 write() 操作并非真正“线程/协程安全”;即使为每个文件单独加锁,也无法阻止两个独立 writer 对同一文件系统位置的无序偏移写入(尤其当未显式控制文件指针或缓冲策略时)。

✅ 正确解法是转向更成熟、社区验证充分的 aiofiles 库,并重构锁策略:

  1. 统一使用单把锁保护所有写入操作
    原代码中为 q_lock 和 a_lock 分别加锁,看似隔离,实则埋下隐患:question_writer.write() 与 answer_writer.write() 可能并发执行,而两个 AIOFile 实例共享底层 OS 文件描述符状态(如当前写入偏移),导致写入位置冲突。改为共用一把 asyncio.Lock(),确保「向 question 文件写一行 + 向 answer 文件写一行」构成一个原子操作单元,从根本上杜绝交错。

  2. 弃用 aiofile,改用 aiofiles
    aiofiles 是基于标准 open() 的异步封装,兼容性高、行为可预测;它通过 loop.run_in_executor() 将阻塞 I/O 提交至线程池,天然规避了 aiofile 在某些平台(尤其是 Windows 或特定文件系统)下因底层 libuv/io_uring 调度引发的偏移错乱。同时,aiofiles.open(..., "w") 默认启用行缓冲(line-buffered),配合 await file.write(...) + await file.flush() 可保障每行写入的完整性。

  3. 移除冗余 fsync(),依赖 aiofiles 的隐式刷新
    原逻辑中调用 writer.fsync() 不仅非必需("w" 模式下 write() 已触发内核缓冲),还可能因频繁强制刷盘拖慢性能。aiofiles 在 close() 时自动 flush,日常写入无需手动 fsync()——除非有强持久化要求(如金融日志),此时应单独设计 flush+fsync 时机。

以下是优化后的核心写入逻辑(含关键注释):

轻舟办公
轻舟办公

基于AI的智能办公平台

下载

立即学习Python免费学习笔记(深入)”;

import asyncio
import aiofiles
import pandas as pd

async def process_data(model, factory):
    df = pd.read_csv("sitemap_data_raw", header=None, names=["Record"], on_bad_lines="warn").drop_duplicates()

    # ✅ 单锁统管所有写入,确保 Q/A 成对原子写入
    file_lock = asyncio.Lock()

    async def process_batch(rows):
        tasks = [factory.build_qa_chain(model).ainvoke({"chunk": row.Record}) for row in rows]
        return await asyncio.gather(*tasks)

    async def write_batches(q_file, a_file, results):
        for result_batch in results:
            for record in result_batch:
                # ? 锁定整个 Q+A 写入流程,避免交叉
                async with file_lock:
                    await q_file.write(record["question"] + "\n")
                    await a_file.write(record["answer"] + "\n")
                    # ⚠️ 无需 await q_file.flush() — aiofiles 在 close 时自动 flush

    # ✅ 使用 aiofiles.open,语义清晰且行为可靠
    async with aiofiles.open("question_output.txt", "w") as q_file, \
                 aiofiles.open("answer_output.txt", "w") as a_file:
        batch_size = 1000
        for i in range(0, len(df), batch_size):
            batch_rows = df.iloc[i:i+batch_size].itertuples(index=False)
            batch_results = await process_batch(batch_rows)
            await write_batches(q_file, a_file, batch_results)

? 额外建议

  • 若需极致性能,可将多行合并为单次 write()(如 await q_file.write("\n".join(questions) + "\n")),减少系统调用次数;
  • 对超大文件,考虑分块写入 + 定期 await q_file.flush() 防止内存积压;
  • 生产环境务必添加异常处理(try/except 包裹 write_batches),避免锁未释放导致死锁。

综上,并发文件写入的安全基石不是“给每个文件加锁”,而是“让所有相关写入受同一把锁协调”。结合 aiofiles 的稳健实现,即可在保持异步高吞吐的同时,获得字节级精确的输出一致性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

806

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

381

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

33

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

31

2026.01.21

C# 多线程与异步编程
C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧,包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目,帮助开发者掌握 如何在 C# 中构建高并发、低延迟的异步系统,提升应用性能和响应速度。

107

2026.02.06

C++多线程并发控制与线程安全设计实践
C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开,系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制,同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解,帮助开发者掌握构建稳定高效并发系统的关键技术。

13

2026.03.16

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

1563

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1173

2023.07.27

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

7

2026.03.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号