0

0

将文本文件按每三行合并为一行并保存为CSV格式

花韻仙語

花韻仙語

发布时间:2026-01-28 18:38:03

|

774人浏览过

|

来源于php中文网

原创

将文本文件按每三行合并为一行并保存为CSV格式

本文介绍如何将ocr识别生成的、按行排列的地址信息(如姓名、地址、城市州邮编)自动整理为结构化的csv文件,支持直接从ocr文本处理,无需中间文本文件,避免手动编辑。

在OCR后处理流程中,常见场景是:每组地址信息被识别为连续的三行(例如:姓名、街道地址、城市/州/邮编),但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换,不仅冗余,还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与CSV写入,跳过中间文本文件。

以下是一个完整、健壮且可直接集成的解决方案:

✅ 核心逻辑说明

  1. 清理与分割:对pytesseract.image_to_string()返回的text,用splitlines()切分为行,并移除每行末尾及内部多余的逗号(避免干扰CSV结构);
  2. 分组校验:确保总行数能被3整除(即每组含“姓名、地址、城市州邮编”),否则抛出明确错误便于调试;
  3. 批量重组:使用步长为3的切片(lines[i:i+3])将线性列表转为二维结构——每子列表代表一个CSV记录;
  4. 安全写入CSV:通过标准csv.writer写入,自动处理字段内逗号、引号和换行等边缘情况(比手动print(..., file=...)更可靠)。

✅ 集成后的 tess_address() 函数(推荐替换原函数)

import os
import csv
import re
import pytesseract

def tess_address():
    input_dir = "address"
    output_csv = "address_output.csv"

    files = sorted(os.listdir(input_dir))

    # 初始化所有OCR行的容器(全局收集,避免逐图覆盖)
    all_lines = []

    for image in files:
        image_path = os.path.join(input_dir, image)
        text = pytesseract.image_to_string(image_path)

        # 清理:移除所有逗号(防止干扰CSV解析),并分割为行
        clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
        all_lines.extend(clean_lines)

    # 校验:必须是3的倍数(每组3个字段)
    if len(all_lines) % 3 != 0:
        raise ValueError(f"OCR共提取 {len(all_lines)} 行,不是3的倍数,请检查识别结果是否完整或存在空行")

    # 按每3行分组
    rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]

    # 写入CSV(注意:newline='' 是csv模块必需参数,避免Windows下空行)
    with open(output_csv, "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已成功生成 {len(rows)} 条记录,保存至 {output_csv}")

⚠️ 关键注意事项

  • 不要重复打开文件写入:原代码中 print(..., file=open("address.txt", 'a')) 在循环内反复调用 open(),既低效又易因编码/缓冲问题导致乱码;新方案统一收集后批量写入,更稳定。
  • 编码与换行:csv.writer 必须指定 newline="",否则在Windows系统中可能产生双换行(\r\n\r\n)。
  • 空行过滤:if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行,提升鲁棒性。
  • 错误定位友好:assert 或 raise ValueError 明确提示行数异常,便于快速排查OCR漏识别或图像质量问题。

✅ 输出效果示例

输入OCR文本(经清理后):

物流公司网站源码1.0
物流公司网站源码1.0

一款WordPress内核的物流公司网站主题,适合各大物流公司企业建站用,商业主题,免费分享,本主题分享目的旨在学习参考之用,无任何收费行为。 wordpress官方网站上下载并安装wordpress3.32及以上版本。安装方法:上传后进者wp主题至wp-content\themes文件夹,进入后台"外观-主题-选择主题-启用"激活本主题。此为作者在Chinaz投稿第三版,请保

下载
John Doe
123 Main St
New York NY 10001
Jane Smith
456 Oak Ave
Los Angeles CA 90210

生成的 address_output.csv 内容(可用Excel或pandas.read_csv()直接读取):

John Doe,123 Main St,"New York NY 10001"
Jane Smith,456 Oak Ave,"Los Angeles CA 90210"
注:csv.writer 自动为含空格的字段加引号,确保语义无歧义。

通过此方案,你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路,实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

57

2025.12.04

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.09.27

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

776

2023.08.22

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

46

2025.09.03

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

761

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1128

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

800

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

454

2023.08.02

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

141

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号