0

0

Python CSV 用户管理:如何正确合并新旧用户数据并保留历史记录

花韻仙語

花韻仙語

发布时间:2026-03-17 14:34:18

|

439人浏览过

|

来源于php中文网

原创

Python CSV 用户管理:如何正确合并新旧用户数据并保留历史记录

本文详解如何修复 csv 用户数据写入时“覆盖而非追加”的常见错误,通过重写文件而非追加方式,确保原有用户不丢失,并安全添加新用户,同时避免权限、编码与字段校验等潜在问题。

本文详解如何修复 csv 用户数据写入时“覆盖而非追加”的常见错误,通过重写文件而非追加方式,确保原有用户不丢失,并安全添加新用户,同时避免权限、编码与字段校验等潜在问题。

在 Python 处理用户批量导入场景中(如 Linux 系统账号创建),一个典型需求是:基于已有用户列表(users_out.csv)持续追加新用户(来自 users_in.csv),且保证历史记录完整、不重复、可审计。但原脚本存在一个关键逻辑缺陷:它以追加模式("a")打开输出文件,却只写入新增用户——而 CSV 文件本身不具备“智能去重+合并”能力,追加操作不会自动保留原有内容的结构完整性(如缺失表头、字段错位、BOM 干扰等),更无法回写已存在的老用户行。结果就是:每次运行后,users_out.csv 仅包含新用户,老用户“凭空消失”。

✅ 正确方案:原子化重写(Write-Then-Replace)

推荐采用读取全部现有数据 → 合并去重后的新数据 → 写入全新临时文件 → 原子替换原文件的流程。这不仅语义清晰、线程安全,还能规避追加模式下表头重复、编码不一致、文件损坏等风险。

以下是优化后的完整实现(含健壮性增强):

import csv
import secrets
import subprocess
import tempfile
import os
from pathlib import Path

data_dir = Path("/home/shayan/Desktop/Python Script/Script_1/data")
input_file = data_dir / "users_in.csv"
output_file = data_dir / "users_out.csv"
temp_file = None  # 将在 with 块中初始化

# 1. 安全读取现有用户(处理文件不存在、空文件、无表头等情况)
existing_rows = []
existing_usernames = set()
fieldnames = ["username", "password", "real_name"]

try:
    with open(output_file, "r", newline="", encoding="utf-8-sig") as f:
        reader = csv.DictReader(f)
        if reader.fieldnames is None:
            raise ValueError("Output CSV has no header row")
        # 验证必需字段
        if not all(f in reader.fieldnames for f in fieldnames):
            raise ValueError(f"Output CSV missing required fields: {fieldnames}")

        for row in reader:
            # 跳过空用户名或无效行
            if not row.get("username", "").strip():
                continue
            existing_rows.append(row)
            existing_usernames.add(row["username"].strip())
except FileNotFoundError:
    print(f"Warning: {output_file} not found. Starting fresh.")
except UnicodeDecodeError:
    raise RuntimeError(f"Invalid encoding in {output_file}. Please save as UTF-8 (with BOM if needed).")

# 2. 读取新用户输入
new_rows = []
try:
    with open(input_file, "r", newline="", encoding="utf-8-sig") as f:
        reader = csv.DictReader(f)
        if reader.fieldnames is None:
            raise ValueError("Input CSV has no header row")
        for row in reader:
            if not row.get("username", "").strip():
                continue
            new_rows.append(row)
except FileNotFoundError:
    raise FileNotFoundError(f"Input file {input_file} does not exist.")

# 3. 创建临时文件(确保原子写入)
with tempfile.NamedTemporaryFile(
    mode="w", newline="", encoding="utf-8", delete=False, dir=data_dir
) as tmp_f:
    temp_file = Path(tmp_f.name)
    writer = csv.DictWriter(tmp_f, fieldnames=fieldnames)
    writer.writeheader()  # 强制写入标准表头

    # 先写入所有现有用户
    for row in existing_rows:
        writer.writerow(row)

    # 再写入未存在的新用户(并生成密码、创建系统账户)
    for row in new_rows:
        username = row["username"].strip()
        if not username or username in existing_usernames:
            continue

        # 生成强随机密码(注意:useradd -p 接收的是加密后密码,此处仅为示意;生产环境应调用 crypt 或使用 --password 参数配合加密值)
        # ⚠️ 实际部署时需用 crypt.crypt() 或 subprocess 调用 openssl passwd
        raw_password = secrets.token_urlsafe(12)  # 更安全的明文密码(供后续加密)
        row["password"] = raw_password  # 占位,真实密码需加密后传给 useradd

        # 执行 useradd(示例:跳过密码加密,仅演示流程;生产请严格处理密码)
        try:
            subprocess.run(
                [
                    "/sbin/useradd",
                    "-c", row.get("real_name", ""),
                    "-m",
                    "-G", "users",
                    username
                ],
                check=True,
                capture_output=True
            )
            # 可选:用 chpasswd 设置密码(更安全)
            # subprocess.run(
            #     ["chpasswd"], 
            #     input=f"{username}:{raw_password}", 
            #     text=True, check=True
            # )
        except subprocess.CalledProcessError as e:
            print(f"Failed to create user '{username}': {e}")
            continue

        writer.writerow(row)

# 4. 原子替换原文件(Linux/macOS 安全;Windows 下需额外处理)
if temp_file and temp_file.exists():
    os.replace(temp_file, output_file)
    print(f"✅ Successfully updated {output_file} with {len(existing_rows)} existing + {len(new_rows) - len(existing_usernames & {r['username'].strip() for r in new_rows})} new users.")
else:
    raise RuntimeError("Temporary file creation failed.")

? 关键改进说明

问题点 原脚本缺陷 本方案修复
文件写入模式 "a" 追加 → 无法回写老用户,易导致表头混乱 "w" 全量重写 + os.replace() 原子替换,确保数据一致性
编码兼容性 未指定 encoding → 中文名/特殊字符乱码 显式使用 "utf-8-sig" 自动处理 BOM,兼容 Excel 保存格式
空值/脏数据校验 if "username" in user 仅检查键存在,不校验值有效性 改为 row.get("username", "").strip(),过滤空、空白、None
安全性 subprocess 直接拼接密码 → 存在注入风险 使用 subprocess.run(..., check=True) + 参数列表,杜绝 shell 注入;密码处理建议改用 chpasswd 或 crypt
健壮性 无异常捕获、无字段验证、无空文件处理 全面 try/except、字段存在性校验、空行跳过、编码错误提示

? 注意事项(生产环境必读)

  • 密码加密警告:Linux useradd -p 要求传入 已加密的密码哈希值(如 $6$...),而非明文!直接传 secrets.token_hex(8) 会导致账户无法登录。正确做法是:
    import crypt
    encrypted_pw = crypt.crypt(raw_password, crypt.mksalt(crypt.METHOD_SHA512))

    或使用 subprocess 调用 openssl passwd -6。

    Picsart AI Image Generator
    Picsart AI Image Generator

    Picsart推出的AI图片生成器

    下载

    立即学习Python免费学习笔记(深入)”;

  • 权限与 SELinux:脚本需以 root 运行;若启用 SELinux,请确保 useradd 上下文允许。
  • 并发安全:本方案通过原子替换规避多进程写冲突;如需高并发,建议引入文件锁(fcntl.flock)。
  • 日志审计:生产环境应将操作记录写入独立日志文件(如 audit.log),而非仅依赖 print。

通过以上重构,您将获得一个可重复执行、数据零丢失、符合 Unix 哲学(一次做对,原子更新)、且易于维护的用户同步工具。记住:CSV 是数据交换格式,不是数据库——对它的任何“增量更新”,本质都应是“全量重建”。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

19

2026.02.03

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

806

2023.08.10

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

391

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2113

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

359

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

259

2023.09.05

c++ 字符处理
c++ 字符处理

本专题整合了c++字符处理教程、字符串处理函数相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号