0

0

Pandas中处理含None值的整数数组:保持整数类型而非自动转换为浮点数

霞舞

霞舞

发布时间:2025-10-20 13:07:00

|

578人浏览过

|

来源于php中文网

原创

Pandas中处理含None值的整数数组:保持整数类型而非自动转换为浮点数

在pandas中,当数组包含none值并加载到dataframe列时,整数通常会被自动转换为浮点数(nan)。本文将介绍如何利用pandas 1.0及更高版本引入的pd.na和int64dtype,优雅地解决这一问题,从而在包含缺失值的同时保持列的整数类型,避免不必要的类型转换。

1. 问题背景:Pandas的默认类型推断

在处理包含缺失值的数值数据时,Pandas的默认行为可能会导致数据类型发生意外转换。具体来说,当一个数组中同时存在整数和None(或np.nan)时,Pandas为了保持列内数据类型的一致性,会将整个列转换为浮点数类型。这是因为传统的整数类型(如int64)无法表示缺失值,而浮点数类型可以表示NaN(Not a Number)。

考虑以下示例,一个包含None和整数的列表被加载到Pandas DataFrame中:

import pandas as pd

the_array = [None, None, None, 101, 555, 756, 924, 485]

df = pd.DataFrame(columns=['request'])
df['request'] = the_array

print(df)
print(df.dtypes)

输出结果将显示:

   request
0      NaN
1      NaN
2      NaN
3    101.0
4    555.0
5    756.0
6    924.0
7    485.0

request    float64
dtype: object

可以看到,原始的None值被转换为NaN,而所有整数值都被转换为浮点数(例如,101变为101.0),列的数据类型也变成了float64。这在某些场景下可能不是期望的行为,特别是在需要严格保持整数类型或避免浮点数精度问题时。

2. 解决方案:引入 pd.NA 和 Int64Dtype

为了解决上述问题,Pandas在1.0.0版本中引入了pd.NA这一实验性的缺失值指示符,并提供了支持可空数据类型的扩展Dtype。其中,pd.Int64Dtype(或其字符串别名'Int64')允许整数列包含缺失值,而无需将整个列转换为浮点数。

蚂蚁PPT
蚂蚁PPT

AI在线智能生成PPT

下载
  • pd.NA: 这是一个新的、通用的缺失值指示符,旨在与所有Pandas的可空Dtype兼容,包括整数、布尔和字符串类型。它与np.nan不同,np.nan主要用于浮点数。
  • pd.Int64Dtype: 这是一个专门用于表示64位整数的可空Dtype。当使用此Dtype时,列中的None或np.nan值将被pd.NA替换,而整数值将保持其整数形式。

3. 实际操作:使用 dtype='Int64'

要实现包含None值的整数列而不进行浮点数转换,只需在创建DataFrame或Series时,通过dtype参数指定为'Int64'即可。

import pandas as pd

the_array = [None, None, None, 101, 555, 756, 924, 485]

# 在创建DataFrame时指定dtype为 'Int64'
df = pd.DataFrame(
    data=the_array,
    columns=["request"],
    dtype="Int64",  # 使用字符串别名指定可空整数Dtype
)
print(df)
print(df.dtypes)

运行上述代码,你将得到以下输出:

   request
0     
1     
2     
3      101
4      555
5      756
6      924
7      485

request    Int64
dtype: object

从输出可以看出:

  • None值被替换为,这是pd.NA在打印时的表示形式。
  • 整数值保持了其原始的整数形式,没有被转换为浮点数。
  • 列的数据类型显示为Int64,表明它是一个可空的64位整数类型。

4. 注意事项与最佳实践

  • Pandas版本要求:pd.NA和可空Dtype是在Pandas 1.0.0及更高版本中引入的。如果使用旧版本Pandas,此方法将不可用。
  • NaN与区别:NaN是浮点数类型中的缺失值,其类型为float。而是pd.NA的表示,它与具体的数值类型(如整数、布尔)结合,形成可空类型。这意味着使用Int64Dtype时,列的实际类型是pandas.core.arrays.integer.Int64Dtype,而不是float64。
  • 其他可空Dtype:除了Int64Dtype,Pandas还提供了其他可空Dtype,例如BooleanDtype('boolean')用于可空布尔值,以及StringDtype('string')用于可空字符串。这些Dtype在处理各种包含缺失值的数据类型时都非常有用。
  • 性能考量:虽然可空Dtype提供了更精确的类型表示,但它们通常是基于NumPy数组的包装器,可能在某些操作上略慢于纯粹的NumPy Dtype(如int64或float64)。然而,它们通常比使用object Dtype来存储混合类型数据更高效,因为object Dtype需要存储Python对象的指针。
  • 数据操作:使用Int64Dtype的列在进行数学运算时,pd.NA会像NaN一样传播,即任何与pd.NA进行的运算结果通常仍为pd.NA。

5. 总结

通过利用Pandas 1.0及更高版本提供的pd.NA和可空Dtype(如Int64Dtype),开发者可以更精确地处理包含缺失值的数值数据。这种方法避免了不必要的类型强制转换,使得DataFrame列能够保持其固有的整数类型,同时优雅地表示缺失值。在需要严格控制数据类型或进行精确数值计算的场景中,采用dtype='Int64'是一个推荐的最佳实践。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

773

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

684

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

765

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

699

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1405

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

570

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

751

2023.08.11

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 16.5万人学习

Django 教程
Django 教程

共28课时 | 3.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号