Python怎么查看数据概况_info与describe方法获取统计描述

P粉602998670

发布时间：2026-03-15 11:17:03

703人浏览过

来源于php中文网

原创

df.info()展示数据结构与内存占用，df.describe()统计数值分布；前者诊断类型与缺失，后者分析均值、分位数等，需注意类型过滤与性能开销。

python怎么查看数据概况_info与describe方法获取统计描述

用 `df.info()` 看数据结构和内存占用

df.info() 主要告诉你“这 DataFrame 长什么样、占多少内存、有没有空值”，不是统计数字本身。它会打印列名、非空计数、数据类型、内存使用量，适合快速诊断读取是否出错、字段类型是否合理。

常见错误现象：df.info() 显示某列全是 object 类型，但你本以为是数值——说明可能混入了空格、字符串（如 "N/A"）、或缺失值被读成字符串；又或者 datetime 列没被自动解析，卡在 object 里。

调用前先确认 df 确实是你想查的 DataFrame（别误用 pd.read_csv(...).info()，那会返回 None）
加参数 verbose=True（默认）才显示每列详情；verbose=False 只给摘要，适合大表速览
内存显示单位是字节，但实际可能远超预期——比如一列 object 存短字符串，Python 每个字符串对象有额外开销，df.info(memory_usage='deep') 才算真实内存

用 `df.describe()` 看数值列的分布特征

df.describe() 默认只对 number 类型列计算统计量：计数、均值、标准差、最小/最大、25%/50%/75% 分位数。它不处理 object 或 category 列，除非你显式要求。

使用场景：刚拿到清洗后的数值表，想一眼判断是否存在异常值（比如最大值明显偏离）、数据是否近似正态（看均值与中位数是否接近）、是否有大量缺失（计数明显少于行数）。

立即学习“Python免费学习笔记（深入）”；

灵云AI开放平台

下载

想包含非数值列？加参数 include='all'，这时 object 列会返回 count、unique、top（最频繁值）、freq（出现频次）
只想看某几列？传列表进去：df.describe(include=['float64', 'int64']) 或 df[['col_a', 'col_b']].describe()
百分位数可自定义：df.describe(percentiles=[.1, .9])，比默认的四分位更早暴露长尾

`describe()` 的输出结果为什么有时列数变少了？

这不是 bug，是 Pandas 的类型过滤逻辑在起作用。默认 df.describe() 只保留 number 类型列；如果 DataFrame 里没有数值列（比如全是字符串或时间），结果就是空的 DataFrame，打印出来像“没东西”。

容易踩的坑：你刚用 pd.to_datetime() 转了一列日期，再跑 describe() 发现它不见了——因为 datetime64 不属于默认的 number 类型，得手动加 include='datetime' 或 include='all' 才会出现。

检查列类型：df.dtypes，别靠肉眼猜
想让时间列也参与统计（如最早/最晚时间）：df.describe(include='datetime64')
混合类型列（如 object 里既有数字字符串又有文本）不会被 describe(include='all') 当作数值处理，仍只给 count/unique 等

性能和兼容性：大表别无脑 `describe(include='all')`

include='all' 会让 Pandas 对每列都做唯一值扫描和频次统计，遇到高基数字符串列（比如用户 ID、URL），速度会断崖式下降，甚至卡死。这不是设计缺陷，而是算法必然代价。

实际项目中，10 万行以上、含文本列的表，describe(include='all') 很可能比 describe() 慢几十倍，且返回结果难以阅读。

优先用 df.describe() + df.nunique() + df.isna().sum() 组合替代 include='all'
真要查文本列分布？单独用 df['text_col'].value_counts().head(10)，可控且快
Pandas 1.4+ 开始，describe() 对 category 类型支持更好，但老版本可能跳过或报错，注意升级提示

事情说清了就结束。真正麻烦的从来不是调哪个方法，而是你得先知道哪列该是什么类型、空值怎么来的、以及“概况”到底想回答什么问题。

PyTorch 中高效实现一维张量到多目标索引的聚合映射（无循环）

Python推荐系统怎么写_基于用户物品的协同过滤算法原理与电影推荐实战

NumPy怎么安装_pip安装NumPy与科学计算基础环境配置

Python异常怎么捕获_try-except语句使用与自定义异常编写

Python Flask请求对象怎么用_深入解析获取HTTP头/真实IP/查询参数/二进制文件全集

相关标签:

python pandas 数据类型 Object count include 字符串数据结构 number 对象算法 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何将两个时间序列DataFrame按索引对齐并填充缺失值下一篇：暂无

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板

Python怎么查看数据概况_info与describe方法获取统计描述

用 df.info() 看数据结构和内存占用

用 df.describe() 看数值列的分布特征

describe() 的输出结果为什么有时列数变少了？

性能和兼容性：大表别无脑 describe(include='all')

用 `df.info()` 看数据结构和内存占用

用 `df.describe()` 看数值列的分布特征

`describe()` 的输出结果为什么有时列数变少了？

性能和兼容性：大表别无脑 `describe(include='all')`