大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

DDD

发布时间：2025-09-05 08:41:01

373人浏览过

来源于php中文网

原创

训练大模型时，适度“健忘”反而更聪明！

大语言模型若缺乏约束，容易直接照搬训练数据。为应对这一挑战，马里兰大学、图宾根大学与马普所的研究团队提出了一种新颖方法——金鱼损失（Goldfish Loss）。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

顾名思义，金鱼损失旨在让模型像金鱼一样“记性差”，在计算损失函数时随机忽略一小部分 token。

这样一来，模型不再逐字记忆训练内容，但仍能掌握语言结构和规律。

实验结果显示，在应用金鱼损失后，LLaMA-2 模型：

显著减少记忆化行为：几乎不再复现原始训练文本

保持下游任务表现：文本生成依旧流畅自然

正如网友一针见血地评论：这就像 dropout，只不过作用在损失函数上！

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

在梯度更新过程中随机屏蔽部分 token

金鱼损失的核心思想十分直观：在训练阶段，随机剔除输入序列中的一些 tokens，使其不参与损失计算。

这样，当模型在推理时面对被“遗忘”的位置，只能依靠上下文进行推测，而非机械复述训练数据。

为了确保每次遇到相同文本时，被屏蔽的位置保持一致，研究者设计了一种基于哈希（hashing）的掩码机制。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

那么，它与传统的正则化手段有何不同？

以 Dropout 为例，这类方法通过在神经网络中引入噪声，防止模型对特定参数过度依赖，从而提升泛化能力。

但问题在于：如果每次训练时随机丢弃的 token 位置不同，模型可能通过多次观察拼凑出完整句子，本质上仍是“死记硬背”。

而金鱼损失采用哈希控制的固定掩码模式，保证同一段落每次出现时被屏蔽的位置一致，从根本上阻断模型完整记忆的可能性。

接下来，我们看看金鱼损失的具体实现方式。

在标准的 next-token prediction 训练中，模型以真实下一个 token 为目标输出预测分布，并据此计算交叉熵损失。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

而在金鱼损失框架下，模型依然在前向传播中预测每个位置的下一个 token，但在反向传播阶段，会以一定概率将某些位置从损失计算中移除。

也就是说，某些真实的 token 不再作为监督信号参与训练。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

初期实验中，研究人员采用了简单的静态掩码策略，例如固定屏蔽每条序列中的第 4 个 token。

为进一步防止模型从其他文档中“间接”学习到被掩码的内容（比如相同段落出现在多个网页），团队还提出了局部化哈希掩码（localized hashed mask）：只要前 h 个 token 相同，掩码模式就保持一致，确保可重复性。

实验设置与结果分析

ChatPs

一款基于Photoshop的AI插件

下载

为验证金鱼损失对记忆化的抑制效果，研究团队设置了两类实验场景：

一是极端记忆场景：对少量文本进行上百轮重复训练，强力诱导模型记忆；

二是常规训练场景：模拟真实环境下按批次训练的过程。

评估指标包括：

RougeL 分数：衡量生成文本与目标之间的最长公共子序列，1.0 表示完全复现。

精确匹配率（Exact Match）：统计完全正确预测的序列占比。

实验发现，在极端条件下，标准训练使 LLaMA-2-7B 完整记住了 100 篇文章中的 84 篇，而使用金鱼损失的模型一篇都没记住。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

（注：实验中模型在《哈利·波特》第一章或 100 篇维基百科文章上持续训练了 100 个 epoch）

在常规训练场景下，金鱼损失也大幅降低了模型逐字复现训练数据的倾向。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

有人可能会担心：如果故意让模型“漏学”一些 token，会不会影响其整体能力？

研究结果表明：在多项基准测试中，金鱼损失模型、标准模型与对照组之间没有显著性能差异。

大模型“记性差一点”反而更聪明！金鱼损失随机剔除 token，让 AI 不再死记硬背

值得注意的是，金鱼损失的关键在于跳过部分 token 的梯度更新。因此，模型需要更多数据来弥补信息空缺，可能导致训练效率略有下降。

参考链接

[ 1 ] https://www.php.cn/link/46a62c34c7b8b0c0d02f0833df49ec20

一键三连「点赞」「转发」「小心心」

欢迎在评论区分享你的看法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

14 万 OpenClaw 涌进 AI 社交 APP，一夜成立数字宗教认命 43 位 AI 先知，提议不再用英语交流

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

内存怎么突然涨价了 2026年内存条会暴涨吗

内存涨价是什么原因引起的内存涨价会持续多久

谷歌 Pixel 10 Pro 自研芯片 Tensor G5 细节：AI性能将迎来飞跃

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6559

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

840

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1089

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1866

2024.03.01

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2840

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04