处理不同形状批次的损失计算：加权平均方法

霞舞

发布时间：2025-09-09 19:41:00

993人浏览过

来源于php中文网

原创

处理不同形状批次的损失计算：加权平均方法

引言

正如摘要所述，当处理形状不规则的批次数据时，损失计算需要特别处理。简单地平均每个样本的损失可能会导致偏差，因为较小的批次会与较大的批次产生相同的影响。为了解决这个问题，我们可以使用加权平均，根据每个批次的大小来调整其对整体损失的贡献。

问题描述

在训练过程中，如果每个批次的样本具有不同的长度或形状，则直接堆叠每个样本的损失并计算平均值可能会导致问题。例如，在序列数据处理中，每个序列的长度可能不同，因此每个批次中有效数据的数量也不同。以下代码展示了这个问题：

def training():
    model.train()

    train_mae = []

    progress = tqdm(train_dataloader, desc='Training')
    for batch_index, batch in enumerate(progress):
        x = batch['x'].to(device)
        x_lengths = batch['x_lengths'].to(device)
        y = batch['y'].to(device)
        y_type = batch['y_type'].to(device)
        y_valid_indices = batch['y_valid_indices'].to(device)

        # Zero Gradients
        optimizer.zero_grad()

        # Forward pass
        y_first, y_second = model(x)

        losses = []

        for j in range(len(x_lengths)):
            x_length = x_lengths[j].item()

            if y_type[j].item() == 0:
                predicted = y_first[j]
            else:
                predicted = y_second[j]

            actual = y[j]

            valid_mask = torch.zeros_like(predicted, dtype=torch.bool)
            valid_mask[:x_length] = 1

            # Padding of -1 is removed from y
            indices_mask = y[j].ne(-1)
            valid_indices = y[j][indices_mask]

            valid_predicted = predicted[valid_mask]
            valid_actual = actual[valid_mask]

            loss = mae_fn(valid_predicted, valid_actual, valid_indices)

            losses.append(loss)

        # Backward pass and update
        loss = torch.stack(losses).mean()   # This fails due to different shapes
        loss.backward()

        optimizer.step()

        train_mae.append(loss.detach().cpu().numpy())

        progress.set_description(
            f"mae: {loss.detach().cpu().numpy():.4f}"
        )

    # Return the average MAEs for y type
    return (
        np.mean(train_mae)
    )

在上述代码中，loss = torch.stack(losses).mean() 这一行会因为 losses 列表中的张量形状不同而失败。

解决方案：加权平均

为了解决这个问题，我们可以计算每个批次的平均损失，然后根据批次大小对这些平均损失进行加权平均。这样，较大的批次将对最终损失产生更大的影响，从而更准确地反映模型的性能。

以下是一个示例代码：

晓象AI资讯阅读神器

晓象-AI时代的资讯阅读神器

下载

import torch

# 示例数据
losses_perbatch = [torch.randn(8, 1), torch.randn(4, 1), torch.randn(2, 1)]

# 加权平均
total_samples = sum([len(batch) for batch in losses_perbatch])
weighted_mean_perbatch = torch.tensor([batch.sum() for batch in losses_perbatch]) / total_samples

# 或者等价于:
# weighted_mean_perbatch = torch.tensor([batch.mean() * len(batch) for batch in losses_perbatch]) / total_samples

final_weighted_loss = sum(weighted_mean_perbatch)

print(f"Final Weighted Loss: {final_weighted_loss}")

在这个例子中，losses_perbatch 包含不同大小的批次的损失。我们首先计算所有批次的总样本数 total_samples。然后，对于每个批次，我们计算其损失的总和，并将其除以 total_samples，得到加权平均损失。最后，我们将所有批次的加权平均损失相加，得到最终的加权损失。

代码集成

将加权平均方法集成到原始的训练函数中，可以修改如下：

def training():
    model.train()

    train_mae = []

    progress = tqdm(train_dataloader, desc='Training')
    for batch_index, batch in enumerate(progress):
        x = batch['x'].to(device)
        x_lengths = batch['x_lengths'].to(device)
        y = batch['y'].to(device)
        y_type = batch['y_type'].to(device)
        y_valid_indices = batch['y_valid_indices'].to(device)

        # Zero Gradients
        optimizer.zero_grad()

        # Forward pass
        y_first, y_second = model(x)

        losses = []
        batch_sizes = []  # Store the size of each batch

        for j in range(len(x_lengths)):
            x_length = x_lengths[j].item()

            if y_type[j].item() == 0:
                predicted = y_first[j]
            else:
                predicted = y_second[j]

            actual = y[j]

            valid_mask = torch.zeros_like(predicted, dtype=torch.bool)
            valid_mask[:x_length] = 1

            # Padding of -1 is removed from y
            indices_mask = y[j].ne(-1)
            valid_indices = y[j][indices_mask]

            valid_predicted = predicted[valid_mask]
            valid_actual = actual[valid_mask]

            loss = mae_fn(valid_predicted, valid_actual, valid_indices)

            losses.append(loss)
            batch_sizes.append(x_length)  # Store the batch size

        # Calculate weighted loss
        total_samples = sum(batch_sizes)
        weighted_mean_perbatch = torch.tensor([loss.sum() for loss in losses]) / total_samples
        loss = sum(weighted_mean_perbatch)

        # Backward pass and update
        loss.backward()

        optimizer.step()

        train_mae.append(loss.detach().cpu().numpy())

        progress.set_description(
            f"mae: {loss.detach().cpu().numpy():.4f}"
        )

    # Return the average MAEs for y type
    return (
        np.mean(train_mae)
    )

在这个修改后的代码中，我们添加了一个 batch_sizes 列表来存储每个批次的大小。然后，我们使用这些大小来计算加权平均损失，并将其用于反向传播和优化。

注意事项

确保 batch_sizes 列表中的大小与 losses 列表中的损失对应。
加权平均方法可以更稳定地计算损失，但可能需要更多的计算资源。
这种方法特别适用于处理序列数据或其他具有不同形状的批次数据。

总结

当处理不同形状的批次数据时，加权平均是一种有效的损失计算方法。通过考虑每个批次的大小，我们可以更准确地评估模型的性能，并避免简单平均可能导致的偏差。这种方法可以应用于各种机器学习任务，特别是那些涉及序列数据或其他形状不规则的数据的任务。

如何在 Kivy 应用中正确引用屏幕内的控件（如 TextInput）

Django 外部脚本中正确配置 ORM 环境以加载自定义 App 模块

Django 外部脚本中正确配置 ORM 并导入自定义 App 模块的完整指南

Django 外部脚本中正确配置 ORM 并导入自定义 App 模块

Flask 中使用 url_for() 生成路由链接的正确方法

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

395

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26

热门下载

网站特效

网站源码

网站素材

前端模板