0

0

Python怎样实现数据滑动窗口?rolling计算

蓮花仙者

蓮花仙者

发布时间:2025-08-07 14:47:01

|

994人浏览过

|

来源于php中文网

原创

处理滑动窗口中的缺失值可通过设置min_periods参数确保窗口内至少有指定数量的非缺失值参与计算,或在自定义函数中使用dropna()忽略nan值;2. 滑动窗口在时间序列分析中用于趋势分析、季节性检测、异常值识别和预测建模;3. 除pandas的rolling()外,还可使用numpy的convolve、more-itertools的windowed和scikit-image的view_as_windows实现滑动窗口;4. 性能优化策略包括使用向量化操作、numba加速、并行计算和合适的数据结构如deque。

Python怎样实现数据滑动窗口?rolling计算

Python中实现数据滑动窗口,主要是为了对数据进行平滑处理、特征提取或统计分析。核心在于利用

pandas
库的
rolling()
方法,它可以方便地在Series或DataFrame上创建滑动窗口对象,然后应用各种聚合函数

rolling计算

import pandas as pd
import numpy as np

# 创建示例数据
data = pd.Series(np.random.randn(100))

# 创建滑动窗口对象,窗口大小为10
window_size = 10
window = data.rolling(window_size)

# 计算滑动窗口的均值
moving_average = window.mean()

# 计算滑动窗口的标准差
moving_std = window.std()

# 自定义聚合函数
def custom_aggregation(x):
  return np.sum(x**2) # 计算平方和

moving_custom = window.apply(custom_aggregation)

# 处理边界情况:最初的几个值因为窗口未满,结果为NaN。
# 可以使用min_periods参数来控制最小有效数据点。
window_min_periods = data.rolling(window_size, min_periods=1).mean()

这段代码展示了如何使用

rolling()
创建滑动窗口,并计算均值、标准差,以及应用自定义聚合函数。
min_periods
参数对于处理数据起始段的边界情况非常有用。

立即学习Python免费学习笔记(深入)”;

如何处理滑动窗口计算中的缺失值?

滑动窗口计算中遇到缺失值(NaN)是很常见的情况。

pandas
rolling()
方法提供了一些参数来控制缺失值的处理方式。

  • min_periods
    参数: 控制窗口中至少需要多少个非缺失值才能进行计算。如果窗口内的非缺失值数量小于
    min_periods
    ,则结果为NaN。

  • center
    参数: 如果设置为
    True
    ,则窗口的中心对齐到当前数据点。这在某些情况下可以减少延迟,但会引入更多的边界NaN值。

  • dropna()
    方法 (配合
    apply()
    ):
    在自定义聚合函数中使用
    dropna()
    可以忽略窗口中的NaN值。

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据
data = pd.Series([1, 2, np.nan, 4, 5, np.nan, 7, 8, 9, 10])

# 创建滑动窗口对象,窗口大小为3,最小有效数据点为2
window_size = 3
window = data.rolling(window_size, min_periods=2)

# 计算滑动窗口的均值
moving_average = window.mean()
print("Moving Average with min_periods=2:\n", moving_average)

# 使用dropna()的自定义聚合函数
def custom_aggregation_dropna(x):
  return np.sum(x.dropna()) # 忽略NaN值求和

moving_custom_dropna = data.rolling(window_size).apply(custom_aggregation_dropna)
print("\nCustom Aggregation with dropna():\n", moving_custom_dropna)

这段代码演示了如何使用

min_periods
参数和
dropna()
方法来处理滑动窗口计算中的缺失值。

滑动窗口在时间序列分析中的应用有哪些?

滑动窗口在时间序列分析中扮演着重要角色,它允许我们分析时间序列数据在特定时间段内的变化趋势和模式。

  • 趋势分析: 通过计算滑动平均值,可以平滑时间序列数据,从而更容易识别长期趋势。例如,可以使用滑动窗口来观察股票价格的长期走势,或者分析季节性数据的趋势。

  • 季节性分析: 结合滑动窗口和傅里叶变换等技术,可以识别时间序列数据中的季节性模式。通过对不同时间段的滑动窗口进行分析,可以了解季节性模式随时间的变化情况。

  • 异常检测: 滑动窗口可以用于检测时间序列数据中的异常值。例如,可以计算滑动窗口内的标准差,如果某个数据点的值与滑动窗口的均值之间的偏差超过一定的倍数,则可以将其标记为异常值。

  • 预测: 滑动窗口可以作为构建预测模型的基础。例如,可以使用滑动窗口的数据作为输入,训练一个回归模型来预测未来的值。

    Bika.ai
    Bika.ai

    打造您的AI智能体员工团队

    下载
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建示例时间序列数据
np.random.seed(0)
dates = pd.date_range('2023-01-01', periods=100, freq='D')
data = pd.Series(np.random.randn(100).cumsum(), index=dates)

# 计算滑动平均值
window_size = 10
moving_average = data.rolling(window_size).mean()

# 绘制原始数据和滑动平均值
plt.figure(figsize=(12, 6))
plt.plot(data, label='Original Data')
plt.plot(moving_average, label='Moving Average (window=10)')
plt.xlabel('Date')
plt.ylabel('Value')
plt.title('Time Series Analysis with Sliding Window')
plt.legend()
plt.grid(True)
plt.show()

这段代码展示了如何使用滑动窗口计算时间序列数据的滑动平均值,并将其可视化。这可以帮助我们更清晰地观察数据的趋势。

除了

rolling()
,还有哪些Python库可以实现滑动窗口?

除了

pandas
rolling()
方法,还有其他一些Python库可以实现滑动窗口,它们在特定场景下可能更适用。

  • NumPy
    : 虽然
    NumPy
    本身没有直接的滑动窗口函数,但可以使用其强大的数组操作功能来实现。例如,可以使用
    np.convolve()
    函数进行卷积操作,这可以模拟滑动窗口的加权平均。

  • SciPy
    :
    SciPy
    库提供了一些信号处理相关的函数,可以用于滑动窗口的实现。例如,可以使用
    scipy.signal.convolve()
    函数进行卷积操作。

  • scikit-image
    :
    scikit-image
    库主要用于图像处理,但也提供了一些滑动窗口相关的函数。例如,可以使用
    skimage.util.shape.view_as_windows()
    函数将图像分割成滑动窗口。

  • more-itertools
    :
    more-itertools
    库提供了更通用的迭代器工具,包括滑动窗口的实现。
    more_itertools.windowed
    函数可以方便地创建滑动窗口迭代器。

import numpy as np
from more_itertools import windowed

# 使用more-itertools实现滑动窗口
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
window_size = 3
windows = windowed(data, window_size, step=1)

# 打印滑动窗口
for window in windows:
  print(window)

# 使用NumPy实现滑动窗口的加权平均
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
window_size = 3
weights = np.array([0.2, 0.6, 0.2]) # 定义权重
weighted_average = np.convolve(data, weights, mode='valid')

print("\nWeighted Average using NumPy:\n", weighted_average)

这段代码展示了如何使用

more-itertools
库和
NumPy
库实现滑动窗口。
more-itertools
更通用,而
NumPy
则更适合数值计算。

滑动窗口计算的性能优化策略有哪些?

滑动窗口计算的性能优化,尤其是在处理大数据集时,至关重要。以下是一些常用的策略:

  • 向量化操作: 尽量使用

    NumPy
    pandas
    的向量化操作,避免使用循环。向量化操作通常比循环快得多。

  • 使用

    Numba
    加速:
    Numba
    是一个即时编译器,可以将Python代码编译成机器码,从而提高性能。可以使用
    @jit
    装饰器来加速滑动窗口的计算。

  • 并行计算: 可以使用

    multiprocessing
    库或
    joblib
    库来实现并行计算。将数据分成多个块,然后并行地计算每个块的滑动窗口,最后将结果合并。

  • 选择合适的数据结构: 对于某些特定的滑动窗口计算,选择合适的数据结构可以提高性能。例如,可以使用双端队列(

    deque
    )来实现固定大小的滑动窗口,它可以高效地进行元素的添加和删除。

import pandas as pd
import numpy as np
from numba import jit
import time

# 创建示例数据
data = pd.Series(np.random.randn(1000000))
window_size = 100

# 使用Numba加速的滑动窗口均值计算
@jit
def moving_average_numba(data, window_size):
  result = np.zeros(len(data) - window_size + 1)
  for i in range(len(data) - window_size + 1):
    result[i] = np.mean(data[i:i+window_size])
  return result

start_time = time.time()
moving_average_numba_result = moving_average_numba(data.values, window_size)
end_time = time.time()
print("Numba Moving Average Time:", end_time - start_time)

# 使用pandas的rolling方法计算滑动窗口均值
start_time = time.time()
moving_average_pandas = data.rolling(window_size).mean()
end_time = time.time()
print("Pandas Rolling Time:", end_time - start_time)

这段代码演示了如何使用

Numba
来加速滑动窗口的均值计算。通常情况下,
Numba
加速后的代码比纯
Python
代码快得多,但可能不如
pandas
优化的
rolling
方法。选择哪种方法取决于具体的数据规模和计算需求。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

58

2025.12.04

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

538

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

27

2026.01.06

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

101

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

86

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

29

2025.12.30

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

141

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

24

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号