0

0

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

王林

王林

发布时间:2023-10-24 20:13:01

|

894人浏览过

|

来源于51CTO.COM

转载

只有4k窗口长度的大模型,也能阅读大段文本了!

普林斯顿的华人博士生的一项最新成果,成功“突破”了大模型窗口长度的限制。

不仅能回答各种问题,而且整个实现的过程全靠prompt就能完成,不需要任何的额外训练

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

研究团队创建了一种名为MemWalker的树形记忆策略,可以突破模型本身的窗口长度限制。

测试过程中,模型阅读的最长文本包含了1.2万+token,成绩相比LongChat大幅提高。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

相比于相似的TreeIndex,MemWalker可以进行推理并回答任何问题,而不是只做概括。

MemWalker的研发利用到了“分而治之”的思想,就此有网友这样评论:

每次我们让大模型的思考过程更像人类,它们的表现就会越好

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

那么,具体什么是树形记忆策略,又是如何用有限的窗口长度阅读长文本的呢?

一个窗口不够,就多开几个

模型上,MemWalker使用Stable Beluga 2作为基本模型,它是Llama 2-70B经过指令调优得到的。

在选择该模型之前,开发者对比了其与原始Llama 2的表现,并最终确定选用。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

就像MemWalker这个名字一样,它的工作过程就像记忆流在行走。

具体来看,大致分为记忆树构建导航检索两个阶段。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

构建记忆树时,长文本会被分割成多个小段(seg1-6),并由大模型分别针对每一段做出总结,得到“叶子节点(leaf nodes,summ1-6)

分割时,每段的长度越长,层级就会越少,有利于后续检索,但其本身过长又会导致准确度下降,因此需要综合考虑确定每段长度。

作者认为,每一段合理的长度是500-2000token,而实验中使用的为1000token。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

然后,模型递归地对这些叶子节点的内容再次进行总结,形成“非叶节点(non-leaf nodes,summ7-8)

CA.LA
CA.LA

第一款时尚产品在线设计平台,服装设计系统

下载

二者的另一个区别是,叶子节点包含了原始信息,非叶节点只有概括得到的二级信息

作用上,非叶节点用于导航定位答案所在的叶子节点,而叶子节点则用于推理出答案。

其中的非叶节点可以有多个层级,模型逐步进行总结概括,直到得到“根节点”,形成完整的树形结构。

记忆树建立完毕后,就可以进入导航检索阶段来生成答案了。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

这一过程中,模型从根节点开始,逐一读取下级子节点的内容,然后推理出应该进入这个节点还是返回。

决定进入这个节点之后,再次重复这样的过程,直到读取到叶节点。如果叶节点的内容合适则生成答案,否则返回。

为了确保答案的完整性,这个过程的结束条件并非发现了一个合适的叶节点,而是模型认为得到了完整答案,或者达到最大步数。

导航过程中,如果模型发现进入了错误的路径,还可以导航回退。

此外,MemWalker中还引入了工作记忆机制来来提高准确度。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

该机制会将已经访问过的节点内容加入到当前内容的上下文中。

当模型进入一个新节点时,当前节点内容都会被加入到记忆中。

这一机制让模型在每一步都可以利用访问过的节点内容,避免重要信息的丢失。

实验结果显示,工作记忆机制可以将MemWalker的准确率提升10%左右。

而且,上面所说的过程只依靠prompt就能完成,不需要进行额外的训练。

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

理论上,只要有足够的算力,MemWalker可以阅读无限长的文本。

不过,记忆树构建时的时间和空间复杂度随着文本长度的增长是呈指数型的。

作者简介

论文第一作者是普林斯顿大学NLP实验室华人博士生Howard Chen。

清华姚班校友陈丹琦是Howard的导师,她今年在ACL上的学术报告也与搜索有关。

这项成果是Howard在Meta实习期间完成的,Meta AI实验室的Ramakanth Pasunuru,Jason Weston和Asli Celikyilmaz三位学者也参与了本项目。

论文地址:https://arxiv.org/abs/2310.05029

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6113

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1064

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1306

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2063

2024.08.16

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

58

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

57

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

237

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

393

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号