用多层感知机（MLP）学习两个实数的加法运算：从训练到推理的完整实践

碧海醫心

发布时间：2026-02-18 17:47:01

390人浏览过

来源于php中文网

原创

用多层感知机（MLP）学习两个实数的加法运算：从训练到推理的完整实践

本文详解如何使用 pytorch 构建一个极简线性 mlp 模型，通过随机样本训练其精确学习加法函数 $ y = x_1 + x_2 $，并演示模型训练后对全新输入的前向推理、结果验证与参数解读。

本文详解如何使用 pytorch 构建一个极简线性 mlp 模型，通过随机样本训练其精确学习加法函数 $ y = x_1 + x_2 $，并演示模型训练后对全新输入的前向推理、结果验证与参数解读。

在深度学习入门实践中，用神经网络“学习加法”看似简单，却能清晰揭示模型拟合本质、优化行为与泛化能力。本教程以一个仅含单层线性变换（Linear(2, 1)）的 MLP 为例，完整展示从数据生成、模型定义、训练收敛到实际推理的全流程。

✅ 正确理解“生成预测”的本质

需明确：神经网络本身不提供 .generate() 方法（该方法属于语言模型或生成式架构，如 GPT、VAE）。对回归任务（如加法），所谓“生成”即标准前向传播（inference）——只需将新输入张量传入模型即可获得预测输出：

y_pred = model(X_new)  # X_new shape: (batch_size, 2)

原代码中 model.generate(idx, 50) 是误用，会导致 AttributeError。删除该行，改用直接调用即可。

editGPT

一款浏览器插件，让ChatGPT修改、校对英语文章

下载

? 完整可运行示例代码

以下为优化后的完整实现（关键改进：提升学习率至 1e-1 加速收敛，增强日志可读性，增加测试逻辑）：

import torch

torch.manual_seed(42)

# 数据配置
N, D, C = 1000, 2, 1
lr = 1e-1  # 关键：原 1e-2 收敛慢；1e-1 可在 200 轮内达 1e-15 级损失

# 生成训练数据：X ∈ [0,1)², y = x₁ + x₂
X = torch.rand(N, D)
y = X.sum(dim=1, keepdim=True)  # shape: (N, 1)

print(f"X.shape: {X.shape}, y.shape: {y.shape}")
print(f"X[:5]:\n{X[:5]}")
print(f"y[:5]:\n{y[:5]}")

# 构建模型：单层线性网络 y = w₁x₁ + w₂x₂ + b
model = torch.nn.Sequential(torch.nn.Linear(D, C))
criterion = torch.nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

# 训练循环
print("\n? 开始训练...")
for epoch in range(500):
    y_pred = model(X)
    loss = criterion(y_pred, y)

    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

    if epoch % 50 == 0:
        print(f"Epoch {epoch+1:3d} | Loss: {loss.item():.2e}")

# ✅ 推理：对全新随机数进行预测
print("\n? 测试泛化能力（5 组未见数据）：")
with torch.no_grad():  # 关闭梯度，节省内存并加速
    for i in range(5):
        X_test = torch.rand(1, D)  # 新样本：shape (1, 2)
        y_pred = model(X_test).item()
        y_true = X_test.sum().item()
        print(f"{X_test[0,0]:.2f} + {X_test[0,1]:.2f} = {y_true:.2f} | 预测: {y_pred:.2f}")

# ? 解析学得的参数
state_dict = model.state_dict()
print(f"\n? 模型学得的权重与偏置：")
print(f"weights = {state_dict['0.weight'].flatten().tolist()}")
print(f"bias    = {state_dict['0.bias'].item():.2e}")

⚠️ 关键注意事项与原理说明

为什么单层线性模型足够？
加法是线性函数，而 Linear(2,1) 的表达能力恰好覆盖所有形如 $ y = w_1x_1 + w_2x_2 + b $ 的映射。理想解应为 $ w_1=w_2=1, b=0 $。训练结果中权重趋近 [1.0, 1.0]、偏置接近 0（如 2.37e-09），证实模型成功捕获数学本质。
学习率至关重要
原 lr=1e-2 下损失下降缓慢；提升至 1e-1 后，损失在 100 轮内降至 1e-5 以下，500 轮达机器精度极限（~1e-20），体现超参对优化效率的显著影响。
推理必须使用 torch.no_grad()
在测试阶段禁用梯度计算，既避免显存浪费，也防止意外修改模型参数，是生产级实践规范。
泛化性验证要点
测试时务必使用全新采样的数据（而非训练集切片），才能真实反映模型对未知输入的预测能力。本例中 torch.rand(1,2) 每次生成独立样本，确保测试有效性。

✅ 总结

本教程通过加法这一最简非平凡任务，阐明了监督学习的核心范式：

数据驱动建模：用合成数据定义输入-输出关系；
结构匹配假设：选择与目标函数性质一致的模型容量（此处为线性）；
优化即求解：梯度下降自动搜索最优参数；
推理即应用：前向传播直接给出预测，无需额外生成逻辑。

掌握此流程，是构建更复杂回归/分类模型的坚实起点。

相关标签:

架构切片 pytorch gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 中如何正确比较绑定方法（Bound Method）对象下一篇：暂无

作者最新文章

HTML 表格中正确设置行列标题的完整指南

2026-02-17 09:24

有内鬼！《绝地潜兵2》玩家为保卫生化人而击杀队友

2026-02-17 09:29

Ursina 中的“灯光效果”真相：如何用投影着色器模拟光照

2026-02-17 09:37

如何为不同 Maven 插件指定独立的 Java 版本运行环境

2026-02-17 09:47

如何通过导航标签页跳转并自动选择表单选项

2026-02-17 09:51

《生化危机9：安魂曲》新截图恐怖怪物逼近男女主角

2026-02-17 09:54

Java 中让 JMenu 的弹出菜单向上展开的完整实现方案

2026-02-17 10:02

Java 中如何在构造器内正确初始化内部类对象并存入外部类数组

2026-02-17 10:05

如何在父元素上安全拦截粘贴事件，仅当目标元素无原生粘贴行为时触发自定义逻辑

2026-02-17 10:13

Go 中使用 math/rand 生成随机数时为何总是返回相同结果？

2026-02-17 10:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

pytorch是干嘛的

pytorch是一个基于python的深度学习框架，提供以下主要功能：动态图计算，提供灵活性。强大的张量操作，实现高效处理。自动微分，简化梯度计算。预构建的神经网络模块，简化模型构建。各种优化器，用于性能优化。想了解更多pytorch的相关内容，可以阅读本专题下面的文章。

446

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22