0

0

Python中处理CSV数据并计算指定列平均值的教程(不使用Pandas)

DDD

DDD

发布时间:2025-09-26 14:13:15

|

925人浏览过

|

来源于php中文网

原创

python中处理csv数据并计算指定列平均值的教程(不使用pandas)

本教程旨在指导Python初学者,如何在不依赖Pandas库的情况下,从CSV文件中读取数据并计算特定数值列的平均值。文章重点解决常见的IndexError问题,通过介绍正确的列表初始化方法和数据解析策略,确保代码的健壮性和可扩展性,即使数据行数或列数发生变化也能正常工作。

在Python中处理CSV(或类似表格)数据并计算特定列的平均值是一个常见的任务。对于习惯C语言等静态类型语言的开发者来说,Python列表(list)的动态特性有时会带来困惑,尤其是在尝试修改尚未存在的列表元素时,容易遇到IndexError: list index out of range。本教程将详细阐述如何正确地实现这一功能,并提供一个健壮的代码示例。

理解 IndexError 的根源

当我们在Python中创建一个空列表 averages = [] 后,如果尝试通过索引直接对其元素进行赋值或累加,例如 averages[i] += value,Python会因为该索引 i 处没有元素而抛出 IndexError。列表的索引只能用于访问或修改 已存在的 元素。要向列表中添加新元素,应该使用 append() 方法;而要对特定位置的元素进行累加操作,则必须确保该位置的元素已经存在。

核心解决方案:列表预初始化

解决 IndexError 的关键在于,在进行累加操作之前,预先初始化 averages 列表,使其包含足够数量的元素(通常是0),以对应需要计算平均值的列数。

假设我们有 N 列需要计算平均值,正确的初始化方式是:

立即学习Python免费学习笔记(深入)”;

火山翻译
火山翻译

火山翻译,字节跳动旗下的机器翻译品牌,支持超过100种语种的免费在线翻译,并支持多种领域翻译

下载
num_columns_to_average = N
averages_sum = [0.0] * num_columns_to_average # 使用浮点数0.0,避免后续类型转换问题

这样,averages_sum 列表就会被创建为 [0.0, 0.0, ..., 0.0],其中包含 N 个0.0,从而允许我们通过 averages_sum[i] += value 的方式安全地进行累加。

实现步骤与代码示例

我们将通过一个具体的例子来演示如何从一个类似CSV的文件中读取数据,并计算指定数值列的平均值。假设我们的数据文件 RADIOLOGY.csv 格式如下(第一行是标题,第一列是序号,后续是数值数据):

Sr    JAN FEB MAR APR
1   2317    5327    997 986
2   2605    5617    1085    1105
...

1. 文件读取与数据解析

首先,我们需要打开并读取文件。由于本例中数据是空格分隔的,我们可以使用 file.readlines() 读取所有行,然后对每行使用 split() 方法进行解析。

import os

# 模拟文件内容,实际应用中会从文件中读取
# 为了教程的独立性,这里使用字符串数据
DATA_CONTENT = """Sr    JAN FEB MAR APR
1   2317    5327    997 986
2   2605    5617    1085    1105
3   2364    5490    1061    998
4   2975    6236    1129    1164
5   2766    5877    1206    1104
6   2762    6058    1295    908
7   3020    6602    1274    1089
8   2576    5644    1091    1041
9   3329    6643    1396    1130
10  2989    6284    1330    1192
"""

def read_data_from_string(data_string):
    """
    从字符串中读取数据行,并去除空行。
    在实际应用中,这里会替换为文件读取逻辑。
    """
    return [line.strip() for line in data_string.split('\n') if line.strip()]

def compute_column_averages(data_lines):
    """
    计算给定数据行中数值列的平均值。
    假设:
    1. 第一行是标题行。
    2. 第一列是标识符(不参与平均值计算)。
    3. 后续列是需要计算平均值的数值数据。
    4. 数据以空格分隔。
    """
    if not data_lines:
        return [], 0, []

    # 解析标题行以确定列数
    headers = data_lines[0].split()
    # 需要计算平均值的列数 = 总列数 - 1 (减去标识符列)
    # 注意:这里假设标题行和数据行有相同的列数结构
    num_columns_to_average = len(headers) - 1

    # 预初始化平均值累加器,所有元素设为0.0
    averages_sum = [0.0] * num_columns_to_average

    # 记录实际参与计算的行数
    data_row_count = 0

    # 遍历数据行,跳过标题行 (data_lines[1:])
    for row_index, line in enumerate(data_lines[1:]):
        values_str = line.split()

        # 确保行有足够的列
        # 需要的列数是 num_columns_to_average (数据列) + 1 (标识符列)
        if len(values_str) < num_columns_to_average + 1:
            print(f"警告: 第 {row_index + 2} 行数据不完整,跳过。内容: '{line}'")
            continue

        # 遍历需要计算平均值的列(从第二个元素开始,即索引1)
        for col_idx in range(num_columns_to_average):
            try:
                # values_str[col_idx + 1] 是实际的数值列
                averages_sum[col_idx] += float(values_str[col_idx + 1])
            except ValueError:
                print(f"警告: 第 {row_index + 2} 行第 {col_idx + 2} 列 '{values_str[col_idx + 1]}' 不是有效数字,跳过此值。")
                # 如果遇到非数字值,我们选择跳过该值,但仍将该行计入总行数
                # 实际应用中可能需要更复杂的策略,例如跳过整行或用0填充
                continue 

        data_row_count += 1 # 只有有效数据行才计入总行数

    # 计算最终平均值
    final_averages = []
    if data_row_count > 0:
        for i in range(num_columns_to_average):
            final_averages.append(averages_sum[i] / data_row_count)
    else:
        print("没有足够的有效数据行来计算平均值。")

    return final_averages, num_columns_to_average, headers[1:] # 返回平均值列表、列数和对应的标题

def main_driver():
    # 1. 读取数据
    # 实际文件读取示例:
    # file_path = "RADIOLOGY.csv"
    # try:
    #     with open(file_path, 'r', encoding='utf-8') as f:
    #         data_lines = read_data_

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

401

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

620

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

354

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

259

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

606

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

531

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

646

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

604

2023.09.22

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

2

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号