0

0

mpi4py中异形NumPy数组的集合操作:gather与Gatherv详解

心靈之曲

心靈之曲

发布时间:2025-12-04 08:24:06

|

474人浏览过

|

来源于php中文网

原创

mpi4py中异形numpy数组的集合操作:gather与gatherv详解

本文深入探讨了在mpi4py中使用`comm.Gather`处理不同形状NumPy数组时遇到的挑战,并提供了两种有效的解决方案:利用`comm.gather`收集通用Python对象后进行拼接,以及使用`comm.Gatherv`直接将不同大小的数组高效地集合到一个预分配的NumPy缓冲区中。文章将详细阐述这两种方法的实现细节、适用场景及代码示例,帮助开发者优化并行程序的集合通信效率。

在并行计算中,经常需要在各个进程(或核心)上处理数据,然后将这些分散的结果收集到根进程上进行进一步的分析或整合。mpi4py库提供了强大的MPI(Message Passing Interface)绑定,使得Python程序能够方便地进行并行化。其中,comm.Gather是一个常用的集体通信操作,用于将所有进程的相同类型和形状的数据收集到根进程的一个连续缓冲区中。

然而,当每个进程需要发送的NumPy数组形状不一致时,直接使用comm.Gather会导致程序失败,因为它期望所有发送的数据都具有相同的维度和大小。本文将介绍两种在mpi4py中有效处理不同形状NumPy数组集合操作的方法:comm.gather(小写g)和comm.Gatherv(大写G,小写v)。

1. 问题背景:comm.Gather的局限性

comm.Gather操作的本质是将所有进程的相同类型数据按顺序收集到根进程的一个预定义缓冲区中。这意味着每个发送进程的数据必须是同构的,即具有相同的形状和数据类型。

考虑以下示例,其中不同进程生成了形状不同的NumPy数组:

from mpi4py import MPI
import numpy as np

comm = MPI.COMM_WORLD
size = comm.Get_size()
rank = comm.Get_rank()

# rank 1生成(2,3)的数组,其他进程生成(5,3)的数组
a = np.zeros((2 if rank == 1 else 5, 3), dtype=float) + rank
print(f"Rank {rank}: 数组形状 {a.shape}, 数据:\n{a}")

# 尝试使用comm.Gather,这通常会失败
# b = np.zeros((12, 3), dtype=float) - 1 # 假设一个足够大的接收缓冲区
# comm.Gather(a, b, root=0)
# if rank == 0:
#     print(f"Rank {rank}: 接收到的数据:\n{b}")

运行上述代码中被注释掉的comm.Gather部分,会因为数组形状不匹配而导致运行时错误。为了解决这个问题,我们需要采用更灵活的集合通信方法。

2. 解决方案一:使用 comm.gather 收集通用Python对象

comm.gather(注意是小写g)是mpi4py中一个更通用的集合操作。它不局限于NumPy数组,可以收集任何可序列化的Python对象。当每个进程发送的NumPy数组形状不同时,comm.gather会将其作为独立的Python对象进行收集,并在根进程上返回一个包含这些对象的列表或元组。随后,我们可以使用numpy.concatenate将这些数组拼接起来。

Veggie AI
Veggie AI

Veggie AI 是一款利用AI技术生成可控视频的在线工具

下载

2.1 实现细节

  1. 发送阶段: 每个进程将自己的NumPy数组a作为独立的Python对象发送。
  2. 接收阶段: 根进程接收所有发送的数组,并将它们存储在一个Python列表(或元组)中。
  3. 后处理: 根进程使用np.concatenate()函数将列表中的所有NumPy数组沿指定轴拼接成一个大的NumPy数组。

2.2 代码示例

import numpy as np
from mpi4py import MPI

comm = MPI.COMM_WORLD
size = comm.Get_size()
rank = comm.Get_rank()

# rank 1生成(2,3)的数组,其他进程生成(5,3)的数组
a = np.zeros((2 if rank == 1 else 5, 3), dtype=float) + rank
print(f"Rank {rank}: 数组形状 {a.shape}, 数据:\n{a}")

# 使用comm.gather收集不同形状的数组
# 根进程会收到一个包含所有数组的列表
gathered_arrays = comm.gather(a, root=0)

if rank == 0:
    print(f"\nRank {rank}: 原始收集到的数据 (列表形式):\n{gathered_arrays}")
    # 将收集到的数组列表拼接成一个大数组
    concatenated_array = np.concatenate(gathered_arrays, axis=0) # 沿0轴拼接
    print(f"\nRank {rank}: 拼接后的数据形状 {concatenated_array.shape}, 数据:\n{concatenated_array}")
else:
    # 非根进程的gathered_arrays为None
    print(f"Rank {rank}: 非根进程,gathered_arrays为 {gathered_arrays}")

2.3 适用场景与注意事项

  • 优点: 实现简单,代码直观,无需预先计算每个进程发送的数据大小和偏移量。适用于数据量不是特别巨大,或者需要灵活处理不同类型对象的场景。
  • 缺点: 涉及到Python对象的序列化和反序列化,以及后续的np.concatenate操作,可能会引入额外的性能开销,尤其是在数据量非常大时。此外,根进程需要足够的内存来存储所有单独的数组,然后再进行拼接。

3. 解决方案二:使用 comm.Gatherv 直接集合到NumPy数组

comm.Gatherv(注意是Gatherv)是comm.Gather的变体,专门设计用于处理每个进程发送数据大小不同的情况。它允许将来自不同进程的、大小不一的数据直接集合到根进程的一个预分配的NumPy数组中,而无需中间的Python对象列表和后续的拼接操作。这通常在性能要求较高的场景下更为高效。

3.1 comm.Gatherv的接收缓冲区参数

comm.Gatherv的接收缓冲区参数比comm.Gather复杂,它是一个元组,通常格式为 (recvbuf, recvcounts, displs, recvtype):

  • recvbuf:根进程上的目标NumPy数组,必须预先分配好,且大小足以容纳所有进程发送的数据。
  • recvcounts:一个列表或NumPy数组,长度等于进程总数。每个元素表示从对应进程接收的元素数量(不是字节数)。
  • displs:一个列表或NumPy数组,长度等于进程总数。每个元素表示从对应进程接收的数据在recvbuf中的起始元素偏移量(不是字节偏移量)。
  • recvtype:接收数据的MPI数据类型(例如MPI.DOUBLE对应float64,MPI.INT对应int32)。

3.2 实现细节

  1. 预计算: 在所有进程上(或至少在根进程上),需要预先计算好每个进程将发送的元素数量 (recvcounts) 以及这些数据在根进程的接收缓冲区中的起始偏移量 (displs)。
  2. 根进程预分配: 根进程需要预先分配一个足够大的NumPy数组作为recvbuf。
  3. 调用 comm.Gatherv: 所有进程调用comm.Gatherv,并由根进程提供接收缓冲区的详细信息。

3.3 代码示例

为了简化recvcounts和displs的计算,以下示例假设只有两个进程(size

import numpy as np
from mpi4py import MPI

comm = MPI.COMM_WORLD
size = comm.Get_size()
rank = comm.Get_rank()

# 示例限制为两个进程,以便手动设置recvcounts和displs
assert size <= 2, "此Gatherv示例仅适用于2个或更少的进程"

if rank == 0:
    a = np.zeros((5, 3), dtype=float) + rank
else: # rank == 1
    a = np.zeros((2, 3), dtype=float) + rank

print(f"Rank {rank}: 数组形状 {a.shape}, 数据:\n{a}")

# 定义全局总行数 (5来自rank 0, 2来自rank 1)
n_global_rows = 7
# 定义每行元素数
cols = a.shape[1]

# 根进程需要预分配接收缓冲区
if rank == 0:
    b = np.zeros((n_global_rows, cols), dtype=float)
    # 计算每个进程发送的元素数量
    # rank 0: 5行 * 3列 = 15个元素
    # rank 1: 2行 * 3列 = 6个元素
    recvcounts = [5 * cols, 2 * cols] # 对应每个进程的元素总数

    # 计算每个进程数据在b中的起始偏移量 (元素偏移量)
    # rank 0: 从b的0偏移量开始
    # rank 1: 从b的第15个元素 (即第5行3列后) 开始
    displs = [0, 5 * cols] 

    # 组合Gatherv的接收缓冲区参数
    recvbuf_params = (b, recvcounts, displs, MPI.DOUBLE)
else:
    b = None
    recvbuf_params = None # 非根进程不需要提供接收缓冲区参数

# 执行Gatherv操作
comm.Gatherv(a, recvbuf_params, root=0)

if rank == 0:
    print(f"\nRank {rank}: Gatherv接收到的数据形状 {b.shape}, 数据:\n{b}")
else:
    print(f"Rank {rank}: 非根进程,b为 {b}")

3.4 适用场景与注意事项

  • 优点: 效率高,数据直接传输到预分配的NumPy数组,避免了Python对象的序列化/反序列化和后续拼接的开销。适用于处理大规模NumPy数组,对性能要求高的场景。
  • 缺点: 实现相对复杂,需要精确计算recvcounts和displs。在实际应用中,通常需要先进行一次comm.gather或comm.allgather操作来收集所有进程的数组形状信息,然后根进程根据这些信息计算recvcounts和displs。
  • 数据类型匹配: recvtype参数必须与NumPy数组的dtype精确匹配。MPI.DOUBLE对应np.float64,MPI.FLOAT对应np.float32,MPI.INT对应np.int32等。
  • 元素计数与偏移: recvcounts和displs中的值都是元素数量,而不是字节数。例如,一个形状为(5, 3)的数组,其元素数量是15。

4. 总结与选择建议

当需要在mpi4py中将不同形状的NumPy数组收集到根进程时:

  • comm.gather (小写g):

    • 适用场景: 数据量相对较小,对代码简洁性要求更高,或者需要收集的不仅仅是NumPy数组,而是各种Python对象。
    • 优点: 简单易用,无需复杂的参数计算。
    • 缺点: 性能开销可能较高,需要额外的np.concatenate步骤。
  • comm.Gatherv (大写G,小写v):

    • 适用场景: 处理大规模NumPy数组,对性能有严格要求,且可以预先计算出每个进程发送的数据大小和偏移量。
    • 优点: 效率高,直接将数据写入预分配的缓冲区。
    • 缺点: 实现复杂,需要精确计算recvcounts和displs。

在实际开发中,应根据具体的应用需求(数据规模、性能要求、代码复杂度等)权衡选择合适的方法。对于大多数情况,如果性能不是极致瓶颈,comm.gather配合np.concatenate是一个简单有效的方案。而对于高性能计算场景,comm.Gatherv则是更专业的选择。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 8.6万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号