0

0

Python如何计算数据的滚动分位数?

爱谁谁

爱谁谁

发布时间:2025-08-03 10:40:01

|

562人浏览过

|

来源于php中文网

原创

滚动分位数在数据分析中的实际应用场景有异常检测、金融市场波动性分析、动态库存管理、系统监控。1.异常检测:通过判断数据是否远超滚动99%分位数,识别异常值;2.金融市场分析:利用滚动四分位距反映市场波动性,识别不确定性变化;3.库存管理:基于滚动90%分位数预测最大库存需求,优化库存水平;4.系统监控:当cpu利用率超过滚动95%分位数时触发扩容或排查机制。

Python如何计算数据的滚动分位数?

在Python中计算数据的滚动分位数,最常用也最便捷的方式就是利用Pandas库的

rolling()
方法结合
quantile()
函数。它能让你在时间序列或任何有序数据上,以一个动态的、滑动窗口的形式,实时地捕捉数据的分布特征,比如中位数、四分位数,甚至是极值点对应的分位数。这对于理解数据的局部趋势、波动性,或者进行动态阈值判断都非常有帮助。

Python如何计算数据的滚动分位数?

解决方案

import pandas as pd
import numpy as np

# 创建一个示例数据集
# 模拟一些带有趋势和噪声的数据
np.random.seed(42)
data = np.random.normal(loc=0, scale=1, size=100).cumsum() + np.linspace(0, 10, 100)
index = pd.date_range(start='2023-01-01', periods=100, freq='D')
s = pd.Series(data, index=index)

print("原始数据(部分):")
print(s.head())
print("-" * 30)

# 计算滚动中位数(q=0.5)和滚动90分位数(q=0.9)
# 窗口大小设置为7,代表7天的数据
window_size = 7
rolling_median = s.rolling(window=window_size).quantile(q=0.5)
rolling_90th_percentile = s.rolling(window=window_size).quantile(q=0.9)

print(f"\n滚动中位数(窗口={window_size},部分):")
print(rolling_median.head(10)) # 展示前几行,可以看到开头的NaN
print("-" * 30)

print(f"\n滚动90分位数(窗口={window_size},部分):")
print(rolling_90th_percentile.head(10))
print("-" * 30)

# 考虑min_periods参数:
# 如果我们希望即使窗口内数据不足,只要达到最小周期数就计算
# 比如,窗口是7,但只要有3个数据就计算,否则为NaN
rolling_median_min_periods = s.rolling(window=window_size, min_periods=3).quantile(q=0.5)
print(f"\n滚动中位数(窗口={window_size}, min_periods=3,部分):")
print(rolling_median_min_periods.head(10))

滚动分位数在数据分析中有哪些实际应用场景?

在我看来,滚动分位数简直是动态数据分析的瑞士军刀,它的应用场景远比我们想象的要广。最直观的,就是异常检测。你想想,如果一个数据点远超它最近一段时间(比如过去7天或30天)的99%分位数,那它很可能就是一个异常值,或者至少是值得我们关注的“极端事件”。这比用固定的阈值要灵活得多,因为数据的“正常”范围本身就是动态变化的。

再比如,在金融市场分析中,滚动分位数可以帮助我们理解资产价格的波动性。计算滚动25%和75%分位数(也就是滚动四分位距,IQR),能动态地反映市场波动的“宽度”。当这个宽度突然变大时,可能预示着市场的不确定性增加。我个人还喜欢用它来做动态定价或库存管理,比如根据过去一周的销售数据滚动计算90%分位数,来预测未来一周可能需要的最大库存量,这样既能避免积压,也能减少缺货风险。它还能用在系统监控中,比如服务器的CPU利用率,如果持续超过滚动95%分位数,就可能需要扩容或排查问题了。这种动态的基准线,比静态的警报阈值要智能和实用得多。

立即学习Python免费学习笔记(深入)”;

Python如何计算数据的滚动分位数?

如何选择合适的滚动窗口大小和分位数级别?

选择合适的滚动窗口大小(

window
)和分位数级别(
q
)确实是个艺术活,没有一劳永逸的答案,更多时候需要结合你的业务理解和数据特性来决定。

窗口大小的选择,核心在于你希望捕捉多长时间范围内的“局部”特征。如果你关心的是日内波动,那窗口可能就是几小时;如果是周度趋势,那可能是7天;月度趋势,就可能是30天甚至更长。一个太小的窗口,结果会非常敏感,噪音很多,可能捕捉不到真实的趋势;而一个太大的窗口,又会过于平滑,导致结果滞后,无法及时反映近期的变化。我通常会从业务周期开始思考,比如一个销售周期是周,那我就倾向于尝试7天或14天的窗口。有时候,我也会通过可视化不同窗口大小的结果,来直观地感受哪种窗口更能清晰地展现我想要的信息。还有一种更高级的做法是,通过一些统计指标(比如自相关函数)来辅助判断数据的周期性,进而指导窗口的选择。

魔法映像企业网站管理系统
魔法映像企业网站管理系统

技术上面应用了三层结构,AJAX框架,URL重写等基础的开发。并用了动软的代码生成器及数据访问类,加进了一些自己用到的小功能,算是整理了一些自己的操作类。系统设计上面说不出用什么模式,大体设计是后台分两级分类,设置好一级之后,再设置二级并选择栏目类型,如内容,列表,上传文件,新窗口等。这样就可以生成无限多个二级分类,也就是网站栏目。对于扩展性来说,如果有新的需求可以直接加一个栏目类型并新加功能操作

下载
Python如何计算数据的滚动分位数?

至于分位数级别(

q
,这完全取决于你想要识别什么。

  • q=0.5
    (中位数)是最常用的,它对异常值不敏感,能很好地代表数据的“中心”位置,比均值更稳健。
  • 如果你想了解数据的扩散程度,可以同时计算
    q=0.25
    q=0.75
    ,它们之间的差值就是滚动四分位距。
  • 而对于异常值检测,你可能会用到
    q=0.01
    q=0.05
    (下尾)或者
    q=0.95
    q=0.99
    (上尾)。比如,如果一个数据点低于滚动5%分位数,那它可能就是异常的低值。反之,高于95%分位数就是异常的高值。选择0.95还是0.99,取决于你对“异常”的容忍度:99%分位数会更严格,只捕捉非常极端的事件。简单来说,就是你想抓多“极端”的事件,
    q
    就往0或1靠多近。

处理滚动分位数计算中的缺失值和边界效应?

处理滚动计算中的缺失值(

NaN
)和边界效应,是实际操作中几乎必然会遇到的问题,理解它们对结果的影响非常重要。

首先是缺失值。Pandas的

rolling()
方法默认情况下会跳过窗口内的
NaN
值进行计算。这意味着如果窗口内有数据缺失,它会用剩余的有效数据来计算分位数。这通常是期望的行为,因为它避免了
NaN
值直接导致整个窗口结果为
NaN
。但如果你希望严格要求窗口内所有数据都必须存在才能计算,那就需要在滚动计算之前对缺失值进行填充(比如前向填充
ffill()
、后向填充
bfill()
,或者插值
interpolate()
)。不过,填充操作本身就会引入假设,可能会“制造”出不存在的数据,所以要谨慎。我个人倾向于先让
rolling()
处理,如果结果中还有
NaN
,再根据业务场景决定是填充还是直接忽略。

其次是边界效应,这主要体现在数据序列的开头部分。由于滚动窗口需要一定数量的历史数据才能完成计算,在序列的最初几个点,窗口内的数据量可能不足以填满整个

window_size
。默认情况下,Pandas的
rolling()
会在这些不足的窗口位置生成
NaN
。这就是为什么你在上面的代码示例中,会看到前几行是
NaN

解决边界效应主要依赖

min_periods
参数。

  • 如果
    min_periods
    不设置(默认是
    window_size
    ),那么只有当窗口内的数据点数量达到
    window_size
    时,才会计算结果。
  • 如果你将
    min_periods
    设置为一个小于
    window_size
    的值(比如3),那么只要窗口内有至少3个有效数据点,就会计算分位数。这会让结果序列的开头部分更快地有值,减少
    NaN
    的数量。

但要记住,

min_periods
设置得太小,可能会导致开头部分的计算结果不够稳定或代表性不足,因为它们是基于非常少的数据点得出的。所以,这又是一个权衡:是宁愿开头多一些
NaN
以确保结果的可靠性,还是希望尽快得到结果,即使它可能基于较少的数据?这通常取决于你后续如何使用这些滚动分位数。如果这些开头的数值对你的分析至关重要,你可能需要考虑在计算完成后,用一些静态的(比如基于全局数据的)分位数来填充这些
NaN
,或者干脆在分析时就跳过这些不完整的数据点。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

760

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 4.7万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号