使用NumPy矢量化高效查找分割子数组的最大值

碧海醫心

发布时间：2025-11-30 13:39:02

535人浏览过

来源于php中文网

原创

使用numpy矢量化高效查找分割子数组的最大值

本文旨在探讨如何利用NumPy的矢量化能力，高效地从一个一维数组中查找由指定索引分割而成的各个子数组的最大值，避免传统的Python循环和显式数组分割操作。核心解决方案是运用`np.maximum.reduceat`函数，并强调了在索引数组中包含起始索引0的重要性，以确保所有子数组都能被正确处理，从而显著提升性能和代码简洁性。

在数据处理和科学计算中，我们经常需要对数组的特定分段进行聚合操作，例如查找最大值、最小值或求和。当这些分段由一系列分割点定义时，一个常见的需求是获取每个分段的聚合结果。虽然Python的for循环结合numpy.split可以实现这一目标，但对于大型数组，这种方法效率较低，因为它涉及多次数组创建和Python层面的迭代。

问题描述

假设我们有一个一维NumPy数组arr和一组分割索引ind。我们希望找出通过这些索引分割后形成的每个子数组的最大值。

例如：

import numpy as np

arr = np.arange(12)
ind = np.array([3, 5, 9])

# 使用传统方法：先分割，再循环
sub_arrays = np.split(arr, ind)
# 结果: [array([0, 1, 2]), array([3, 4]), array([5, 6, 7, 8]), array([ 9, 10, 11])]

max_values_loop = [sub_array.max() for sub_array in sub_arrays]
# 结果: [2, 4, 8, 11]

这种方法虽然直观，但其性能瓶颈在于np.split会创建多个新的数组对象，并且列表推导式在Python层面上执行迭代。对于追求高性能的NumPy应用，我们需要一种更“矢量化”的解决方案。

矢量化解决方案：使用 np.maximum.reduceat

NumPy提供了一个强大的函数np.ufunc.reduceat，它允许我们对数组的指定“块”或“段”执行通用函数（ufunc）的累积操作。对于查找每个子数组的最大值，我们可以利用np.maximum.reduceat。

np.maximum.reduceat(array, indices) 的工作原理是，它在array中从indices数组中的每个索引位置开始，对后续元素执行maximum操作，直到遇到下一个索引位置（或数组末尾）。每个indices中的索引都会作为新段的起始点。

关键步骤：调整索引数组

AdsGo AI

全自动 AI 广告专家，助您在数分钟内完成广告搭建、优化及扩量

下载

为了让np.maximum.reduceat产生与np.split后列表推导式相同的效果，我们需要对ind数组进行一个关键的调整：必须在ind数组的开头添加索引0。

这是因为np.maximum.reduceat会从indices数组中的每个元素指定的位置开始一个新的累积操作。如果我们不包含0，那么数组的第一个分段（从索引0到ind[0]-1）将不会被正确地作为一个独立的段来处理。通过添加0，我们明确指示从数组的起始位置开始第一个分段的最大值查找。

实现示例：

import numpy as np

arr = np.arange(12)
ind = np.array([3, 5, 9])

# 1. 准备用于 reduceat 的索引数组
# 必须包含起始索引 0
indices_for_reduceat = np.concatenate(([0], ind))
# 结果: [ 0  3  5  9]

# 2. 使用 np.maximum.reduceat 计算每个段的最大值
max_values_vectorized = np.maximum.reduceat(arr, indices_for_reduceat)

print(f"原始数组: {arr}")
print(f"分割索引: {ind}")
print(f"矢量化计算的最大值: {max_values_vectorized}")
# 预期输出: [ 2  4  8 11]

# 验证与传统方法的输出一致性
# max_values_loop = [sub_array.max() for sub_array in np.split(arr, ind)]
# print(f"传统方法计算的最大值: {max_values_loop}")

运行上述代码，max_values_vectorized将输出[ 2 4 8 11]，与传统方法的结果完全一致。

np.maximum.reduceat 的工作机制详解

让我们以上述例子为例，理解np.maximum.reduceat(arr, [0, 3, 5, 9])是如何工作的：

第一个段（索引 0）： 从arr[0]开始，计算arr[0]到arr[3-1]（即arr[0:3]）的最大值。结果是max(0, 1, 2) = 2。
第二个段（索引 3）： 从arr[3]开始，计算arr[3]到arr[5-1]（即arr[3:5]）的最大值。结果是max(3, 4) = 4。
第三个段（索引 5）： 从arr[5]开始，计算arr[5]到arr[9-1]（即arr[5:9]）的最大值。结果是max(5, 6, 7, 8) = 8。
第四个段（索引 9）： 从arr[9]开始，计算arr[9]到数组末尾（即arr[9:12]）的最大值。结果是max(9, 10, 11) = 11。

最终，所有这些最大值被收集到一个新的NumPy数组中，作为np.maximum.reduceat的返回值。

优点与注意事项

性能提升： np.maximum.reduceat是高度优化的C语言实现，避免了Python层面的循环和中间数组的创建，对于大数据集能够提供显著的性能优势。
代码简洁： 将多行循环代码精简为一行NumPy函数调用，提高了代码的可读性和维护性。
通用性： ufunc.reduceat不仅限于maximum，还可以应用于其他NumPy通用函数，如np.add.reduceat（求和）、np.minimum.reduceat（最小值）、np.multiply.reduceat（乘积）等，使其成为处理分段聚合问题的强大工具。
索引的精确性： 务必确保indices数组是排序的，并且包含所有期望的起始点。特别是，如果需要从数组开头开始处理，0必须作为第一个索引包含在内。

总结

通过巧妙地使用np.maximum.reduceat并正确构造索引数组（即在原始分割索引前添加0），我们可以高效且矢量化地解决查找NumPy数组分割子段最大值的问题。这种方法不仅提升了计算性能，也使得代码更加符合NumPy的编程范式，是处理类似分段聚合任务时的推荐实践。掌握ufunc.reduceat的用法，将极大地增强您在NumPy中处理复杂数据操作的能力。

Python 中嵌套字典赋值时的浅拷贝陷阱与正确初始化方法

Python中嵌套字典赋值时的浅拷贝陷阱与正确解决方案

如何在 Chainlit 应用中设置断点进行本地调试

如何在 Python Socket 客户端/服务器架构中可靠传输图像

如何使用 Python Socket 在客户端与服务器间可靠传输图像

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

641

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

264

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

637

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

565

2023.09.20