0

0

使用NumPy高效聚合多维数组:按指定间隔求均值

聖光之護

聖光之護

发布时间:2025-11-01 12:48:45

|

994人浏览过

|

来源于php中文网

原创

使用numpy高效聚合多维数组:按指定间隔求均值

本教程详细介绍了如何利用NumPy的reshape和mean函数,将多维数组中特定维度的数据(例如按年份排列的数据)高效地聚合到预设的固定间隔(如5年)中。文章通过具体示例,阐释了reshape参数的含义及mean函数中axis参数的选择,确保在聚合的同时保持其他维度的独立性,从而实现自动化的数据分组和统计。

NumPy多维数组按间隔聚合求均值

在数据分析中,我们经常需要对多维数组中的数据进行分组聚合,例如将按年记录的数据聚合为按5年或10年为间隔的统计量。NumPy提供了强大且高效的工具来完成此类任务,特别是通过结合reshape和mean函数。本文将以一个具体的示例,详细讲解如何在NumPy中实现这一操作。

场景描述

假设我们有一个NumPy数组,其中包含按年份和性别划分的数据。例如,一个形状为(10, 2)的数组,第一维代表10个连续的年份数据,第二维代表男性和女性的数据。我们的目标是将这些数据按每5年为一个间隔进行聚合,并分别计算每个性别在每个5年间隔内的均值。

以下是原始数据示例:

import numpy as np

# 原始数据,第一列为女性数据,第二列为男性数据
# 每一行代表一个年份的数据
arr = np.array([
    [0, 1],  # 年份0
    [2, 3],  # 年份1
    [3, 4],  # 年份2
    [4, 5],  # 年份3
    [5, 6],  # 年份4
    [7, 8],  # 年份5
    [8, 9],  # 年份6
    [9, 10], # 年份7
    [10, 11],# 年份8
    [11, 12] # 年份9
])

print("原始数组形状:", arr.shape)
print("原始数组:\n", arr)

如果手动计算,我们需要分别提取每5年的数据进行求均值,这在数据量大时效率极低且易出错:

# 手动计算示例
mean_1st_5_yrs_female = np.mean([0, 2, 3, 4, 5])
mean_1st_5_yrs_male = np.mean([1, 3, 4, 5, 6])
mean_2nd_5_yrs_female = np.mean([7, 8, 9, 10, 11])
mean_2nd_5_yrs_male = np.mean([8, 9, 10, 11, 12])

print("\n手动计算结果 (女性第一五年):", mean_1st_5_yrs_female)
print("手动计算结果 (男性第一五年):", mean_1st_5_yrs_male)

NumPy自动化解决方案

NumPy提供了一种简洁而强大的方法来自动完成这种聚合,即结合使用reshape和mean函数。

核心代码如下:

result = arr.reshape(-1, 5, 2).mean(axis=1)
print("\nNumPy自动化聚合结果:\n", result)

输出结果:

[[ 2.8  3.8]
 [ 9.  10. ]]

这个结果与我们手动计算的预期结果一致:

靠岸学术
靠岸学术

一款集翻译,阅读,文献管理于一体的英文文献阅读器

下载
  • 第一个5年间隔(年份0-4)的女性均值为 (0+2+3+4+5)/5 = 2.8,男性均值为 (1+3+4+5+6)/5 = 3.8。
  • 第二个5年间隔(年份5-9)的女性均值为 (7+8+9+10+11)/5 = 9.0,男性均值为 (8+9+10+11+12)/5 = 10.0。

详细解析

  1. arr.reshape(-1, 5, 2)

    • reshape函数的作用: 改变数组的形状,但不改变其数据。它将原始数组的数据元素重新组织成一个新的维度结构。
    • -1: 这是一个特殊的占位符,表示NumPy会自动计算此维度的大小。在本例中,原始数组的第一维大小为10,我们希望每5个元素组成一个组,因此NumPy会自动计算出 10 // 5 = 2,即会有2个这样的5年周期。
    • 5: 这表示我们希望将原始数组的第一维(年份)按照每5个元素为一个“块”进行分组。这对应于我们希望的“5年间隔”。
    • 2: 这表示原始数组的第二维(性别)保持不变。
    • 重塑后的数组形状: 原始数组 (10, 2) 被重塑为 (2, 5, 2)。
      • 第一个维度 (2) 代表了2个5年周期。
      • 第二个维度 (5) 代表了每个周期内的5个年份。
      • 第三个维度 (2) 代表了每个年份的2个性别数据。

    为了更好地理解,我们可以查看重塑后的数组:

    reshaped_arr = arr.reshape(-1, 5, 2)
    print("\n重塑后的数组形状:", reshaped_arr.shape)
    print("重塑后的数组:\n", reshaped_arr)

    输出:

    [[[ 0  1]
      [ 2  3]
      [ 3  4]
      [ 4  5]
      [ 5  6]]
    
     [[ 7  8]
      [ 8  9]
      [ 9 10]
      [10 11]
      [11 12]]]

    可以看到,数据被正确地分成了两个5年块,每个块内部包含了5个年份的男女数据。

  2. .mean(axis=1)

    • mean函数的作用: 计算数组元素的平均值。
    • axis参数: 指定沿哪个轴计算平均值。
      • 在重塑后的数组 (2, 5, 2) 中:
        • axis=0 代表在不同5年周期之间求平均(例如,第一个5年周期的女性均值与第二个5年周期的女性均值求平均)。
        • axis=1 代表在每个5年周期内部,沿着5个年份数据求平均。这正是我们想要做的:对每个5年周期内的5个年份数据进行聚合。
        • axis=2 代表在每个年份内部,沿着性别数据求平均(例如,某个年份的男女数据求平均)。
      • 因此,axis=1 将对每个5年周期内的5个年份数据求均值,同时保持不同性别的数据独立。

    最终,result数组的形状将变为 (2, 2),其中:

    • 第一个维度 (2) 对应于2个5年周期。
    • 第二个维度 (2) 对应于2个性别。 每个元素就是相应周期和性别的均值。

注意事项

  • 维度匹配: 使用reshape进行聚合时,原始数组被聚合的维度(本例中的年份维度)的大小必须是聚合间隔(本例中的5)的整数倍。如果不是整数倍,reshape操作会失败,或者需要更复杂的切片和填充逻辑来处理剩余的数据。
  • 重塑顺序: reshape的参数顺序至关重要。例如,如果尝试 arr.reshape(-1, 2, 5),虽然它也能重塑,但数据的逻辑结构会被打乱。原始数据中,[0, 1]是第一个年份的男女数据,[2, 3]是第二个年份的男女数据。reshape(-1, 5, 2) 保持了这种“年份内部性别”的结构。而 reshape(-1, 2, 5) 会将原始数组的每一行(即每个年份的男女数据)拆分,然后将5个这样的元素组合起来,这会破坏原始数据的逻辑分组。因此,确保重塑后的维度顺序符合你的聚合逻辑非常重要。

总结

NumPy的reshape和mean函数组合为多维数组的按间隔聚合提供了一个优雅且高效的解决方案。通过理解reshape中维度参数的含义以及mean中axis参数的选择,我们可以轻松地对复杂数据集进行自动化统计分析。这种方法不仅代码简洁,而且在处理大规模数据时具有卓越的性能优势。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

56

2025.09.03

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

67

2025.12.13

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

44

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6万人学习

ASP 教程
ASP 教程

共34课时 | 5.9万人学习

Vue3.x 工具篇--十天技能课堂
Vue3.x 工具篇--十天技能课堂

共26课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号