0

0

如何将按行分组的文本文件高效转换为CSV格式

花韻仙語

花韻仙語

发布时间:2026-01-28 15:15:11

|

142人浏览过

|

来源于php中文网

原创

如何将按行分组的文本文件高效转换为CSV格式

本文介绍如何将每三行一组的纯文本文件(如ocr识别结果)直接转换为结构化csv文件,避免手动编辑,并提供可集成到python ocr流程中的完整代码方案。

在处理OCR输出(如tesseract识别的地址信息)时,常见模式是:每条记录占据连续三行(姓名、地址、城市州邮编),但原始文本以换行分隔,缺乏行内结构。理想目标是将每三行合并为CSV中的一行,字段间用逗号分隔,最终生成标准CSV文件供后续分析或导入使用。

以下是一个健壮、可复用的解决方案,分为两个典型场景:

✅ 场景一:从已有文本文件(如 address.txt)生成 CSV

假设输入文件 address.txt 内容如下(末尾带多余逗号,需清理):

First Name,
Address,
City State Zip,
Second Name,
Second Address,
Second City State zip,

使用标准库即可完成清洗、分组与导出:

Getimg.ai
Getimg.ai

getimg.ai是一套神奇的ai工具。生成大规模的原始图像

下载
import csv

# 1. 读取并清洗:去空行、去换行符、移除所有逗号(避免干扰CSV结构)
with open("address.txt", encoding="utf-8") as f:
    lines = [line.strip().replace(",", "") for line in f if line.strip()]

# 2. 验证数据完整性:必须为3的倍数,否则逻辑错位
if len(lines) % 3 != 0:
    raise ValueError(f"输入行数 {len(lines)} 不是3的倍数,无法按三行一组分组")

# 3. 按每3行切片,构建CSV行列表
rows = [lines[i:i+3] for i in range(0, len(lines), 3)]

# 4. 写入CSV(注意:newline='' 防止Windows下空行)
with open("address.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(rows)

执行后生成 address.csv:

First Name,Address,City State Zip
Second Name,Second Address,Second City State zip

✅ 场景二:在OCR流程中直接生成CSV(推荐——免中间文件)

将清洗与分组逻辑嵌入原 tess_address() 函数,跳过生成 address.txt 的步骤,提升效率与可靠性:

import os
import re
import csv
import pytesseract

def tess_address():
    files = sorted(os.listdir("address"))
    all_lines = []

    for image in files:
        output_path = os.path.join("address", image)
        text = pytesseract.image_to_string(output_path)
        # 清洗:移除所有逗号 + 拆行 + 去空行
        lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
        all_lines.extend(lines)

    # 验证总行数是否满足三元组要求
    if len(all_lines) % 3 != 0:
        print(f"警告:共 {len(all_lines)} 行,非3的倍数,将截断末尾不完整组")
        all_lines = all_lines[: (len(all_lines) // 3) * 3]  # 安全截断

    # 构建CSV行并写入
    rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]

    with open("address.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已成功生成 address.csv,共 {len(rows)} 条记录")

⚠️ 注意事项

  • 编码统一:始终显式指定 encoding="utf-8",避免中文等字符乱码;
  • 逗号处理:replace(",", "") 是为消除OCR误加的冗余逗号;若原始文本中字段本身含逗号(如 "New York, NY"),应改用正则精准替换行尾逗号(rstrip(",\n\r"))或改用 csv.writer 自动转义(需保留原始逗号);
  • 异常防护:添加 assert 或 if 校验确保数据规整性,避免静默错误;
  • 性能优化:对大文件,可用生成器逐块读取(for line in f:),但本例中OCR输出量通常较小,列表处理更清晰。

通过以上方法,你不仅能彻底摆脱手动编辑文本文件的繁琐步骤,还能将数据预处理无缝融入自动化OCR流水线,输出即用、结构清晰的CSV文件。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

776

2023.08.22

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

101

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

86

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

29

2025.12.30

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

41

2025.12.13

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

1

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

1

2026.01.28

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

23

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

120

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号