0

0

使用Python处理CSV文件列数不一致与编码问题:一份详细教程

心靈之曲

心靈之曲

发布时间:2025-11-18 11:45:08

|

197人浏览过

|

来源于php中文网

原创

使用Python处理CSV文件列数不一致与编码问题:一份详细教程

本教程详细讲解如何使用python高效处理大型csv文件中常见的列数不一致和字符编码问题。我们将利用python的`csv`模块识别并报告那些不符合预期列数的行,提供逐行和范围报告两种实用方法,并指导如何解决常见的`unicodedecodeerror`,为数据清洗和导入提供专业解决方案。

一、引言:CSV数据清洗的挑战

在数据处理流程中,尤其是在将数据从Excel等源文件转换为CSV格式以导入数据库(如Teradata)时,常常会遇到“脏数据”问题。其中最常见且棘手的挑战包括:

  1. 列数不一致:部分行可能包含比预期更多或更少的列。这通常是由于手动输入错误、缺少数据验证或文本中包含分隔符等原因造成的。
  2. 字符编码错误:当CSV文件使用与读取程序不兼容的编码时,会导致UnicodeDecodeError,使得文件无法被正确解析。
  3. 大规模数据处理:对于包含数十万行甚至更多数据的文件,手动检查和修复是不切实际的,需要自动化解决方案。

本教程将重点介绍如何使用Python及其内置的csv模块来高效地识别和报告这些问题,为后续的数据清洗和修正提供基础。

二、初步尝试与局限性

在面对列数不一致的问题时,一种直观的初步尝试是简单地计算每行中分隔符(如逗号)的数量。

with open('Data.csv', 'r') as csv_file:  
    for line in csv_file:  
        print(line.count(','))

然而,这种方法存在以下几个主要局限性:

立即学习Python免费学习笔记(深入)”;

  1. 无法处理引用字段:如果CSV文件中某个字段本身包含逗号,但被双引号包围(例如 "John,Doe",30,"New York"),line.count(',')会错误地将其计为两个逗号,从而导致列数判断不准确。
  2. 字符编码问题:如问题描述中提到的,当文件编码与系统默认编码不匹配时,open()函数在尝试读取文件内容时会抛出UnicodeDecodeError。
  3. 不适用于大规模数据:对于包含125,000行、66列的庞大数据集,仅打印逗号数量并不能有效地识别和定位问题行,更无法进行“现场”修复。

因此,我们需要一个更健壮、更专业的解决方案来处理CSV数据。

三、使用Python csv 模块进行健壮解析

Python的csv模块是处理CSV文件的标准库,它能够正确处理各种复杂的CSV格式,包括带引号的字段、嵌入的换行符等。同时,解决UnicodeDecodeError的关键在于在打开文件时明确指定正确的编码。

3.1 解决 UnicodeDecodeError

UnicodeDecodeError通常意味着Python尝试使用错误的字符编码来解释文件中的字节序列。解决此问题的最佳实践是在open()函数中明确指定encoding参数。常见的编码格式包括:

  • 'utf-8':最推荐的通用编码。
  • 'latin-1' (ISO-8859-1):西欧语言常用。
  • 'cp1252':Windows系统常用。

如果无法确定确切编码,可以尝试上述几种,或者使用errors='ignore'参数来跳过无法解码的字符(但请注意,这可能导致数据丢失或不准确)。

# 示例:使用UTF-8编码打开文件
try:
    with open('Data.csv', 'r', encoding='utf-8', newline='') as csv_file:
        # 后续的csv处理逻辑
        pass
except UnicodeDecodeError:
    print("无法使用UTF-8解码文件,尝试其他编码...")
    try:
        with open('Data.csv', 'r', encoding='latin-1', newline='') as csv_file:
            # 后续的csv处理逻辑
            pass
    except UnicodeDecodeError:
        print("尝试latin-1也失败了,可能需要更复杂的编码检测或处理。")

# 注意:`newline=''`参数对于csv模块非常重要,它可以防止csv.reader在Windows上处理换行符时出现问题。

3.2 识别列数不一致的行并生成报告

本节将介绍两种生成报告的方法:逐行报告和范围报告。

3.2.1 方法一:生成逐行问题报告

这种方法适用于需要精确知道每一行具体问题的情况,它将输出所有列数不符合预期的行号及其实际列数。

核心思想:

  1. 定义预期的列数 N_COLS。
  2. 使用 csv.reader 逐行读取文件。
  3. 对每一行,检查 len(row) 是否等于 N_COLS。
  4. 如果不匹配,则将行号和实际列数写入一个报告文件。

示例代码:

宣小二
宣小二

宣小二:媒体发稿平台,自媒体发稿平台,短视频矩阵发布平台,基于AI驱动的企业自助式投放平台。

下载

假设我们的CSV文件名为 input.csv,并且预期有3列。

Col1,Col2,Col3
r1c1,r1c2
r2c1,r2c2,r2c3
r3c1
r4c1
r5c1
r6c1,r6c2,r6c3
r7c1,r7c2,r7c3
r8c1,r8c2
r9c1,r9c2

以下Python代码将生成一个名为 output_flat.csv 的报告文件:

import csv

# 定义预期的列数
N_COLS = 3 # 根据实际数据调整,例如对于66列的数据,这里应为66

# 打开输出报告文件
f_out = open("output_flat.csv", "w", newline='', encoding='utf-8')
writer = csv.writer(f_out)
writer.writerow(["Row #", "N cols"]) # 写入报告头

# 打开输入CSV文件
# newline='' 对于csv模块至关重要,它可以防止字段中包含换行符时出现问题
# 确保使用正确的编码,例如 'utf-8'
try:
    f_in = open("input.csv", newline="", encoding='utf-8')
    reader = csv.reader(f_in)

    # 跳过CSV文件的标题行(如果存在)
    # 如果文件没有标题行,请注释掉或删除这一行
    next(reader)  

    # 遍历每一行,使用enumerate获取行号(从1开始)
    for i, row in enumerate(reader, start=1):
        if len(row) != N_COLS:
            writer.writerow([i, len(row)]) # 写入不符合预期的行号和实际列数

except UnicodeDecodeError:
    print(f"Error: 无法使用指定编码('utf-8')解码文件。请检查文件编码并重试。")
except FileNotFoundError:
    print(f"Error: 文件 'input.csv' 未找到。请检查文件路径。")
finally:
    # 确保文件被关闭
    f_in.close()
    f_out.close()

print("逐行问题报告已生成到 output_flat.csv")

生成的报告 output_flat.csv 示例:

Row #,N cols
1,2
3,1
4,1
5,1
8,2
9,2

3.2.2 方法二:生成范围问题报告(适用于大型数据集)

对于包含大量行的CSV文件(例如125,000行),逐行报告可能会非常庞大。在这种情况下,将连续的问题行合并为范围报告会更加高效和易于分析。例如,如果第3到第5行都有1列,报告可以显示为 1 | 3 | 5。

核心思想:

  1. 定义一个变量 ncols 来存储CSV文件的标题行(或第一行)的列数,以此作为基准。
  2. 维护一个 tracking 状态,记录当前是否正在跟踪一个列数不一致的行范围。
  3. 当列数发生变化时,如果正在跟踪,则写入前一个范围的报告;如果新的列数与基准列数不符,则开始新的跟踪。

示例代码:

假设 input.csv 内容如下(为演示范围报告,数据稍长):

Col_1,Col_2,Col_3
r01c1,r01c2
r02c1,r02c2,r02c3
r03c1
r04c1
r05c1
r06c1,r06c2,r06c3
r07c1,r07c2,r07c3
r08c1,r08c2
r09c1,r09c2
r10c1,r10c2,r10c3
r11c1,r11c2,r11c3
r12c1,r12c2,r12c3
r13c1,r13c2,r13c3
r14c1,r14c2,r14c3
r15c1,r15c2,r15c3
r16c1
r17c1,r17c2
r18c1,r18c2
r19c1,r19c2
r20c1,r20c2
r21c1,r21c2
r22c1,r22c2,r22c3
r23c1,r23c2
r24c1,r24c2,r24c3
r25c1,r25c2
r26c1,r26c2,r26c3
r27c1,r27c2
r28c1,r28c2,r28c3
r29c1,r29c2
r30c1,r30c2
r31c1
r32c1,r32c2
r33c1
r34c1,r34c2,r34c3

以下Python代码将生成一个名为 output_ranges1.csv 的报告文件:

import csv

# 打开输出报告文件
f_out = open("output_ranges1.csv", "w", newline='', encoding='utf-8')
writer = csv.writer(f_out)
writer.writerow(["N cols", "Row start", "Row end"]) # 写入报告头

# 辅助函数:将列数和行范围写入报告
def write_row(row_data: tuple[int, int, int]):
    """
    写入列计数以及该列计数范围的起始和结束行号。
    如果起始行和结束行相同(即只有一行),则结束行为空。
    """
    if row_data[1] == row_data[2]:
        writer.writerow([row_data[0], row_data[1], ""]) # 单行情况
    else:
        writer.writerow(row_data) # 范围情况

# 打开输入CSV文件
try:
    f_in = open("input.csv", newline="", encoding='utf-8')
    reader = csv.reader(f_in)

    # 读取标题行并确定基准列数
    # 假设标题行的列数代表了预期的列数
    header_row = next(reader)
    ncols = len(header_row) 

    # 跟踪状态变量
    NO_TRACK = -1 # 未跟踪状态的标记
    tracking = False # 是否正在跟踪一个不符合预期的行范围
    row_num = NO_TRACK # 当前跟踪范围的起始行号
    cols_ct = NO_TRACK # 当前跟踪范围的列数

    i = 0  # 循环外部的行计数器,enumerate会递增

    # 遍历每一行,从第1行数据开始(因为标题行已处理)
    for i, row in enumerate(reader, start=1):
        _ncols = len(row) # 当前行的实际列数

        # 如果当前行的列数与正在跟踪的列数不同
        if _ncols != cols_ct:
            if tracking:
                # 结束前一个跟踪范围,写入报告
                write_row((cols_ct, row_num, i - 1)) # i-1 是前一行的行号

            # 判断是否开始新的跟踪
            if _ncols == ncols:
                # 当前行符合预期,停止跟踪
                tracking = False
                row_num = NO_TRACK
                cols_ct = NO_TRACK
            else:
                # 当前行不符合预期,开始新的跟踪
                tracking = True
                row_num = i # 记录当前行作为新范围的起始行
                cols_ct = _ncols # 记录当前范围的列数

    # 循环结束后,如果仍在跟踪,则写入最后一个范围
    if tracking:
        write_row((cols_ct, row_num, i))

except UnicodeDecodeError:
    print(f"Error: 无法使用指定编码('utf-8')解码文件。请检查文件编码并重试。")
except FileNotFoundError:
    print(f"Error: 文件 'input.csv' 未找到。请检查文件路径。")
finally:
    # 确保文件被关闭
    f_in.close()
    f_out.close()

print("范围问题报告已生成到 output_ranges1.csv")

生成的报告 output_ranges1.csv 示例:

N cols,Row start,Row end
2,1,
1,3,5
2,8,9
1,16,
2,17,21
2,23,
2,25,
2,27,
2,29,30
1,31,
2,32,
1,33,

四、注意事项与总结

4.1 注意事项

  • 预期列数的确定:在实际应用中,N_COLS(或通过标题行确定的 ncols)是至关重要的。请确保这个值是正确的,它代表了你希望数据应该有的列数。
  • 编码的选择:encoding参数是解决UnicodeDecodeError的关键。如果utf-8不起作用,尝试latin-1、cp1252或其他适合你数据源的编码。
  • newline=''参数:在使用csv.reader和csv.writer时,务必在open()函数中包含newline=''。这可以防止在不同操作系统上处理换行符时出现意外行为,尤其是当CSV字段本身包含换行符时。
  • “现场修复”的复杂性:在读取数据的同时“现场”修改并写入同一文件通常是非常复杂的,且容易出错。更推荐的做法是先通过上述方法识别问题,生成报告,然后根据报告进行有针对性的数据清洗(可能通过脚本或手动)。
  • 数据验证:从长远来看,解决“脏数据”问题的最佳方法是在数据生成或输入阶段就实施严格的数据验证。

4.2 总结

通过本教程,我们学习了如何利用Python的csv模块来处理大型CSV文件中常见的列数不一致和字符编码问题。我们掌握了:

  • 使用encoding参数解决UnicodeDecodeError。
  • 利用csv.reader和csv.writer进行健壮的CSV解析和报告生成。
  • 生成两种类型的报告:逐行报告和更适合大型数据集的范围报告,以高效识别问题行。

这些方法为数据预处理和清洗提供了坚实的基础,帮助我们更好地准备数据以进行后续的分析或导入数据库操作。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 12.6万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号