0

0

Pandas中从对象类型列提取数值并进行描述性统计分析

聖光之護

聖光之護

发布时间:2025-11-21 15:44:49

|

925人浏览过

|

来源于php中文网

原创

Pandas中从对象类型列提取数值并进行描述性统计分析

本文将指导如何在pandas dataframe中处理包含数值信息但被错误识别为object数据类型的列。通过详细的迭代处理和字符串解析方法,我们将演示如何从这些混合数据列中准确提取数值、进行单位标准化,并最终计算出正确的描述性统计量,从而为后续的数据分析奠定坚实基础。

1. 理解Pandas中的数据类型挑战

在使用Pandas进行数据分析时,从Excel、CSV等文件加载数据后,经常会遇到列的数据类型(dtype)被错误推断为object的情况。这通常发生在列中包含混合数据(如数字和文本)、数字带有单位(如"2666 MHz", "15.6 inches")或格式不一致(如逗号作为小数分隔符)时。当这些“对象”列实际上承载着数值信息时,直接调用.mean(), .median()或.std()等数值统计方法将无法正常工作,导致统计结果不准确或程序报错。

例如,考虑一个包含产品规格的数据集。即使某些列明显是数值性质的,df.info()的输出也可能显示它们为object类型:

import pandas as pd
import numpy as np

# 假设这是从 'data.xlsx' 加载的数据集结构
# dataset = pd.read_excel('data.xlsx')

# 为演示目的创建一个模拟DataFrame
data = {
    'Memory Speed': ['2666 MHz', '3200 MHz', '1066 MHz', '3200 MHz', 'NaN', '6400 MHz'],
    'Device Weight': ['2 - 4 kg', '1 - 2 kg', 'NaN', '1 - 2 kg', '3 kg', '0.5 kg'],
    'Screen Size': ['15.6 inches', '15.6 inches', '10 inches', '15.6 inches', '14 inches', '17.3 inches'],
    'GPU Memory Size': ['Shared', '1 GB', '2 GB', 'Shared', '4 GB', '8 GB'],
    'SSD Capacity': ['256 GB', '512 GB', '1 TB', '1 TB', '2 TB', '500 GB'],
    'Max Processor Speed': ['3.4 GHz', '3.6 GHz', '1.05 GHz', '4.2 GHz', '5.0 GHz', '4.8 GHz'],
    'RAM (System Memory)': ['4 GB', '8 GB', '12 GB', '16 GB', '32 GB', '64 GB'],
    'Backlit Keyboard': [0, 1, 0, 0, 1, 1],
    'Price': ['Very Low', 'Low', 'High', 'Medium', 'Low', 'Medium']
}
dataset = pd.DataFrame(data)

print("原始数据集信息:")
dataset.info()
print("\n原始数据集头部:")
print(dataset.head())

输出可能显示多个关键数值列(如Memory Speed, Screen Size, SSD Capacity等)被识别为object类型:


RangeIndex: 6 entries, 0 to 5
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Memory Speed         6 non-null      object
 1   Device Weight        5 non-null      object
 2   Screen Size          6 non-null      object
 3   GPU Memory Size      6 non-null      object
 4   SSD Capacity         6 non-null      object
 5   Max Processor Speed  6 non-null      object
 6   RAM (System Memory)  6 non-null      object
 7   Backlit Keyboard     6 non-null      int64 
 8   Price                6 non-null      object
dtypes: int64(1), object(8)
memory usage: 592.0+ bytes

在这种情况下,如果直接尝试计算dataset['Memory Speed'].mean(),将会报错或返回NaN,因为Pandas无法对字符串进行数值运算。

墨狐AI
墨狐AI

5分钟生成万字小说,人人都是小说家!

下载

2. 从对象类型列中提取数值数据

要对这些包含数值的object类型列进行统计分析,核心步骤是将它们转换为适当的数值类型(如float或int)。这通常涉及字符串处理、单位转换和错误处理。

以下是一个通用的处理策略,通过迭代列和值来清洗和转换数据:

import pandas as pd
import numpy as np

# 假设 df 是从 Excel 加载的 DataFrame
# df = pd.read_excel("Dataset.xlsx") 

# 为演示目的,使用前面定义的模拟数据集
df = dataset.copy() 

df_new = pd.DataFrame(columns=df.columns) # 创建一个空的新DataFrame,保留列名

for col in df.columns: # 遍历原始DataFrame的每一列
    if df[col].dtype == "object": # 检查列是否为对象类型
        values = [] # 初始化一个空列表来存储转换后的值
        for val in df[col].values: # 遍历当前列的每一个值
            if pd.isna(val) or (isinstance(val, str) and val.upper() == 'NAN'): # 处理NaN值(包括字符串'NaN')
                values.append(np.nan)
            elif isinstance(val, str): # 确保值是字符串才进行解析
                val_trimmed = val.strip() # 去除首尾空白

                # 处理包含空格的字符串,通常表示“数值 单位”
                if " " in val_trimmed:
                    val_parts = val_trimmed.split(" ")
                    # 尝试转换第一个部分为数值
                    try:
                        # 替换逗号为小数点,以处理不同地区的小数表示
                        numeric_part = val_parts[0].replace(",", ".")
                        num = float(numeric_part)

                        # 特殊处理SSD Capacity列的单位转换 (GB to TB)
                        if col == "SSD Capacity" and len(val_parts) > 1:
                            unit = val_parts[1].upper()
                            if unit == "GB":
                                values.append(num / 1000) # 转换为TB
                            elif unit == "TB":
                                values.append(num)
                            else: # 未知单位,保留原值
                                values.append(val)
                        # 处理RAM (System Memory)列的单位转换 (GB)
                        elif col == "RAM (System Memory)" and len(val_parts) > 1:
                            unit = val_parts[1].upper()
                            if unit == "GB":
                                values.append(num) # 已经是GB,直接添加
                            else: # 未知单位,保留原值
                                values.append(val)

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

307

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

573

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

100

2025.10.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

278

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1491

2023.10.24

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 13万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号