谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至

WBOY

发布时间：2024-04-17 15:40:01

672人浏览过

来源于51CTO.COM

转载

编辑|伊风

出品 | 51CTO技术栈（微信号：blog51cto）

谷歌终于出手了！我们将不再忍受大模型的“健忘症”。

TransformerFAM横空出世，放话要让大模型拥有无限记忆力！

话不多说，先来看看TransformerFAM的“疗效”：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至

图片

大模型在处理长上下文任务时的性能得到了显著提升！

在上图中，Isabelle、NarrativeQA等任务要求模型理解和处理大量上下文信息，并对特定问题给出准确的回答或摘要。在所有任务中，FAM配置的模型都优于所有其他BSWA配置，并且能够看到当超过某个点时，BSWA记忆段数量的增加已经无法继续提升其记忆能力。

看来，在卷长文本、长对话的路上，FAM这颗大模型的“忘不了”确实有点东西。

Google的研究人员介绍了FAM这种新颖的Transformer架构——Feedback Attention Memory。它利用反馈循环使网络能够关注自身的漂移表现，促进Transformer内部工作记忆的出现，并使其能够处理无限长的序列。

简单点说，这个策略有点像我们人工对抗大模型“失忆”的策略：每次和大模型对话前都再输入一次prompt。只不过FAM的做法更高阶一些，在模型处理新的数据块时，它会将之前处理过的信息（即FAM）作为一个动态更新的上下文，再次整合到当前的处理过程中。

这样就能很好地应对“爱忘事”的问题了。更妙的是，尽管引入了反馈机制来维持长期的工作记忆，但FAM的设计旨在保持与预训练模型的兼容性，不需要额外的权重。所以理论上说，大模型的强大记忆力，没有使其变得迟钝或者消耗更多的算力资源。

那么，这么妙的TransformerFAM是如何被探索出来的？相关技术又是啥？

一、从挑战中来，TransformerFAM为何能帮助大模型“记住更多”？

滑动窗口注意力（Sliding Window Attention, SWA）这个概念，对TransformerFAM的设计至关重要。

在传统的Transformer模型中，自注意力（Self-Attention）的复杂度随着序列长度的增加而呈二次方增长，这限制了模型处理长序列的能力。

“在电影《记忆碎片》（2000 年）中，主角患有顺行性遗忘症，这意味着他无法记住过去 10 分钟发生的事情，但他的长期记忆是完好的，他不得不将重要信息纹在身上以记住它们。这与当前大型语言模型（LLMs）的状态类似，”论文中这样写道。

雾象

WaytoAGI推出的AI动画生成引擎

下载

谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至《记忆碎片》电影截图，图片源于网络

滑动窗口注意力（Sliding Window Attention），它是一种改进的注意力机制，用于处理长序列数据。它受到了计算机科学中滑动窗口技术（sliding window technique）的启发。在处理自然语言处理（NLP）任务时，SWA允许模型在每个时间步骤上只关注输入序列的一个固定大小的窗口，而不是整个序列。因此，SWA的优点在于它可以显著减少计算量。

谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至图片

但是SWA有局限性，因为它的注意力范围受限于窗口大小，这导致模型无法考虑到窗口之外的重要信息。

TransformerFAM通过添加反馈激活，将上下文表示重新输入到滑动窗口注意力的每个区块中，从而实现了集成注意力、区块级更新、信息压缩和全局上下文存储。

在TransformerFAM中，改进通过反馈循环实现。具体来说，模型在处理当前序列块时，不仅关注当前窗口内的元素，还会将之前处理过的上下文信息（即之前的“反馈激活”）作为额外的输入重新引入到注意力机制中。这样，即使模型的注意力窗口在序列上滑动，它也能够保持对之前信息的记忆和理解。

于是，经过这番改进，TransformerFAM就给了LLMs能够处理无限长度序列的潜力！

二、有了工作记忆的大模型，继续向AGI迈进

TransformerFAM在研究中展现出了积极的前景，这将毫无疑问地提升AI在理解和生成长文本任务中的性能，例如处理文档摘要、故事生成、问答等工作。

谷歌出手整顿大模型“健忘症”！反馈注意力机制帮你“更新”上下文，大模型无限记忆力时代将至图片

同时，无论是智能助手还是情感陪伴，一个有无限记忆力的AI听起来都更有吸引力。

有趣的是，TransformerFAM的设计灵感来源于生物学中的记忆机制，这一点与AGI追求的自然智能模拟不谋而合。这篇论文正是一个来自神经科学的概念——基于注意力的工作记忆——整合到深度学习领域的尝试。

TransformerFAM通过反馈循环为大模型引入了工作记忆，使得模型不仅能够记住短期的信息，还能够在长期序列中维持对关键信息的记忆。

通过大胆的想象，研究人员在现实世界与抽象概念间假设起桥梁。随着TransformerFAM这样的创新成果继续涌现出来，技术的瓶颈会一次次被突破，一个更加智能、互联的未来正向我们徐徐地展开画卷。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

Cursor自动修改代码问题怎么用_修复方法是什么【操作】

workbuddy部署后验证方法_workbuddy部署验证教程【教程】

Ollama如何下载热门大模型_Ollama模型安装方法【教程】

MiniMax生成速度慢是什么原因_MiniMax运行变慢常见原因汇总【汇总】

MiniMax模型选择太多怎么选_MiniMax模型选择思路说明【说明】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

418

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板