0

0

Python怎么查特定分布_检验数据正态分布特性与偏度峰度极值计算

P粉602998670

P粉602998670

发布时间:2026-03-17 11:46:03

|

913人浏览过

|

来源于php中文网

原创

Shapiro检验仅适用于n<5000的小样本,p>0.05才勉强接受正态;Q-Q图需加line='45'参考线并结合直方图判断偏离;极值处理应据偏度选择IQR法而非简单分位截断。

python怎么查特定分布_检验数据正态分布特性与偏度峰度极值计算

scipy.stats.shapiro 检验小样本正态性,但别超 5000 个点

小样本(n shapiro 最可靠,p 值 > 0.05 才算勉强接受正态;超过 5000 个点它会直接报错 ValueError: Sample size must be less than 5000。这不是限制你数据量,是算法本身对大样本不敏感——此时 p 值极容易显著(

  • 替代方案:n > 50 且 scipy.stats.kstest(需指定 cdf='norm')或 scipy.stats.anderson(返回临界值表,比单个 p 值更稳)
  • kstest 要求先标准化数据:stats.kstest((x - x.mean()) / x.std(), 'norm'),漏这步结果完全不可信
  • 注意 anderson 的返回值里 statistic 越小越好,critical_values 对应不同显著性水平,得自己比对,不是直接看 p

计算偏度峰度别只看 scipy.stats.skewkurtosis 的原始值

默认 skewkurtosis 返回的是 Fisher 定义(峰度减去 3),但很多人误以为“峰度=3 就是正态”——其实那是 excess kurtosis;真实正态分布的 Pearson 峰度是 3,Fisher 峰度才是 0。更麻烦的是,样本量小时这两个统计量方差极大,±0.5 的波动纯属噪声。

  • 加参数 bias=False 能减少小样本偏差,例如:stats.skew(x, bias=False)
  • 判断阈值别死守 ±0.5:n 200 后才考虑 ±0.5
  • 别单独看数字:偏度为正但直方图右尾没异常值?可能是样本随机波动,配合 Q-Q 图看更准

Q-Q 图比所有数值检验都直观,但 statsmodels.api.qqplot 默认不标参考线

Q-Q 图一眼能看出哪里偏离、是否系统性(比如整体上翘说明右偏,S 形说明峰太尖或尾太厚)。但 qqplot 默认画完图不加 y=x 参考线,新手常误把散点趋势当结论。

  • 必须加 line='45' 参数:sm.qqplot(x, line='45'),否则图没参照系
  • 如果数据量大(> 1000),点太多糊成一片,加 fit=True 让它拟合正态分布后再画理论分位点,更清晰
  • 注意坐标轴:横轴是理论分位数,纵轴是样本分位数;若纵轴明显弯曲,说明分布形状问题,不是均值或方差偏移

极值检测不能只靠 np.percentile 切 1% 和 99%

用分位数截断极值看似简单,但正态分布本身就有约 0.3% 数据落在 ±3σ 外——直接切 1%/99% 会误删合理极值,尤其当样本偏斜时,上下界不对称,单靠对称截断等于强行拉直尾巴。

皮卡智能
皮卡智能

AI驱动高效视觉设计平台

下载

立即学习Python免费学习笔记(深入)”;

  • 先看分布形态:若 skew > 0.5,用 np.percentile(x, [1, 99]) 会低估上界,改用 IQR 法:q1, q3 = np.percentile(x, [25, 75]); iqr = q3 - q1; upper = q3 + 1.5 * iqr
  • 若要做稳健标准化(比如喂给模型),优先用 sklearn.preprocessing.RobustScaler,它内部就基于 IQR,不用自己算
  • 警惕“极值=噪声”思维:金融收益率、响应时间等天然重尾,切掉可能丢掉关键信号

实际用时,最常被跳过的一步是:检验前先画直方图 + Q-Q 图。数值指标再漂亮,图上明显弯折也得回头查数据生成逻辑——比如是否混入了不同来源的子样本,或者存在未处理的离群实验条件。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Sass和less的区别
Sass和less的区别

Sass和less的区别有语法差异、变量和混合器的定义方式、导入方式、运算符的支持、扩展性等。本专题为大家提供Sass和less相关的文章、下载、课程内容,供大家免费下载体验。

216

2023.10.12

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

504

2023.08.14

c++ 字符处理
c++ 字符处理

本专题整合了c++字符处理教程、字符串处理函数相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.17

minimax视频生成教程汇总
minimax视频生成教程汇总

本专题整合了minimax生成视频相关教程,阅读下面的文章了解更多详细操作。

0

2026.03.17

c++ 读取二进制文件
c++ 读取二进制文件

本专题整合了c++读取二进制文件相关内容与教程,阅读专题下面的文章了解更多详细操作。

0

2026.03.17

c++ 全局变量
c++ 全局变量

本专题整合了c++全局变量的使用、定义、作用域等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.17

c++ 全局变量
c++ 全局变量

本专题整合了c++全局变量的使用、定义、作用域等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.17

Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建
Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者,均可快速搭建运行环境,掌握跨平台核心指令,为后续配置与调优奠定坚实基础。

11

2026.03.16

chatgpt使用指南
chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容,阅读专题下面的文章了解更多详细内容。

22

2026.03.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号