如何高效生成指定稀疏度的 PyTorch 二值张量

心靈之曲

发布时间：2026-03-05 16:09:25

775人浏览过

来源于php中文网

原创

如何高效生成指定稀疏度的 PyTorch 二值张量

本文介绍一种高性能、低内存开销的方法，使用 torch.rand() 配合布尔比较快速生成指定比例（如 n%）为 1 的二值张量，相比手动索引填充提速数十倍且内存占用极低。

本文介绍一种高性能、低内存开销的方法，使用 torch.rand() 配合布尔比较快速生成指定比例（如 n%）为 1 的二值张量，相比手动索引填充提速数十倍且内存占用极低。

在深度学习与大规模实验中，常需构造具有精确稀疏度（例如 0.1%、5% 或 50%）的二值掩码张量（仅含 0 和 1），用于 dropout 模拟、结构化剪枝、随机采样或合成数据生成等场景。然而，原始实现中通过 torch.randperm 生成全排列再截取索引的方式存在严重性能瓶颈：对 (19000, 19000)（约 3.61 亿元素）张量，不仅耗时超 7 秒，更会峰值占用近 20 GB 显存——其根本原因在于 randperm(size) 需分配并排序一个长度为 size 的整数张量，时间复杂度为 O(n log n)，空间复杂度为 O(n)。

更优解是概率化构造法：直接调用 torch.rand(shape) 生成均匀分布于 [0, 1) 的浮点张量，再与阈值 p = n / 100.0 做逐元素比较，结果自动转为 torch.bool，最后通过 .to(torch.float32) 或 .to(torch.int64) 转换为数值型二值张量。该方法具备三大优势：

✅ O(n) 时间复杂度：仅一次随机数生成 + 一次广播比较，无排序、无索引寻址；
✅ 显存友好：中间张量可被即时释放，实际峰值内存 ≈ 原始张量大小（而非 2× 或更高）；
✅ 天然支持任意设备与形状：torch.rand() 原生支持 device 参数，且 view()/reshape() 无需额外拷贝。

以下是推荐实现（含类型控制与设备适配）：

OneStory

OneStory 是一款创新的AI故事生成助手，用AI快速生成连续性、一致性的角色和故事。

下载

import torch

def create_sparse_binary_tensor(shape, sparsity_percent, device=None, dtype=torch.float32):
    """
    高效创建指定稀疏度的二值张量（1 的占比 ≈ sparsity_percent%）

    Args:
        shape (tuple): 输出张量形状，如 (19000, 19000)
        sparsity_percent (float): 1 所占百分比（0.0 ~ 100.0）
        device (torch.device, optional): 目标设备，默认为当前默认设备
        dtype (torch.dtype): 输出数据类型，如 torch.float32 或 torch.int64

    Returns:
        torch.Tensor: shape 形状的二值张量，dtype 指定类型
    """
    p = sparsity_percent / 100.0
    # 生成 [0,1) 均匀随机张量，并比较得到 bool 张量
    binary_bool = torch.rand(shape, device=device) < p
    return binary_bool.to(dtype)

# 示例：生成 19000×19000、50% 为 1 的 float32 张量（GPU 加速）
shape = (19000, 19000)
device = torch.device("cuda:2") if torch.cuda.is_available() else torch.device("cpu")
tensor = create_sparse_binary_tensor(shape, sparsity_percent=50.0, device=device, dtype=torch.float32)

print(f"Shape: {tensor.shape}, Device: {tensor.device}, Dtype: {tensor.dtype}")
print(f"Actual 1-ratio: {tensor.mean().item():.4f}")  # 理论期望值为 0.5，实测通常在 0.4999~0.5001

⚠️ 注意事项：

该方法生成的是期望比例（expectation），非严格精确比例。对于超大张量（如 >1e6 元素），统计波动极小（标准差 ≈ √(p(1−p)/N)），实际偏差通常小于 0.001%；若业务要求绝对精确计数（如必须恰好 int(N × p) 个 1），仍需 randperm 方案，但建议改用 torch.multinomial 或分块处理以降低内存压力；
避免在 CPU 上对超大张量调用 torch.rand() 后立即 .to(device)——应始终在目标设备上直接生成，否则会触发主机内存→显存的冗余拷贝；
如需复现实验结果，请在生成前设置全局随机种子：torch.manual_seed(42)（CPU）和 torch.cuda.manual_seed_all(42)（多卡 GPU）。

综上，torch.rand(shape) 0.8–1.2 秒内，显存峰值低于 3.8 GB，性能提升达 7× 以上，是工业级 PyTorch 工程的首选实践。

PyTorch 自定义网络中全局邻接矩阵权重不更新的根源与解决方案

PyTorch 自定义网络中权重不更新的根本原因与参数注册机制

PyTorch 自定义网络中权重矩阵未更新的根本原因与解决方案

PyTorch 自定义网络中权重矩阵不更新的根本原因与参数注册机制

PyTorch 自定义网络中全局邻接矩阵无法更新的根源与解决方案

相关标签:

pytorch bool int float32 pytorch

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python异步上下文管理_async with用法下一篇：暂无

作者最新文章

Bootstrap 5 响应式标签页与桌面端内容显示兼容方案