0

0

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

霞舞

霞舞

发布时间:2024-10-22 08:18:36

|

823人浏览过

|

来源于机器之心

转载

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

北京大学的工作来自智能学院王立威、贺笛老师课题组,发表于icml 2024。作者包括北京大学图灵班本科生杨铠;苏黎世联邦理工学院硕士生jan ackermann;北京大学智能学院博士生何震宇、冯古豪、张博航;纽约大学博士生冯韫禛;北京智源研究院研究员叶启威;清华大学的工作来自于明年即将入职清华大学交叉信息院做助理教授、目前在加州大学伯克利分校 simons institute 做博士后的吕凯风研究员。作者包括斯坦福在读一年级博士温凯越;清华大学姚班本科生党星宇。 

思维链(CoT)是大模型中最神秘的现象之一,尤其在数学任务上显著提升了 Transformer 的能力。然而,思维链的引入也使生成内容的长度增加,消耗了更多的计算资源。这不禁让人好奇:最新推出的高效模型(如 Mamba)是否也能像 Transformer 一样具备强大的推理能力?近期,北大和清华的研究团队同时给出了明确的否定答案,揭示了 Mamba 等高效模型在结构上的局限性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

  • 论文 1:Do Efficient Transformers Really Save Computation? (发表于 ICML 2024)
  • 论文链接:https://arxiv.org/abs/2402.13934

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

  • 论文 2:RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
  • 论文链接:https://arxiv.org/abs/2402.18510

基于 Transformer 的大语言模型在文本翻译、文本生成等许多领域展现了惊人的能力。主流的大语言模型通常采用自回归范式进行生成:由问题描述、相关提示组成的输入序列(prompt)会被首先编码。基于编码后的信息,大模型逐步生成后续的单词序列,以形成问题的答案。对于复杂的问题,已有的实践和理论研究表明,利用思维链提示(CoT)可以显著提升模型在数学或推理方面的问题解决能力。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

如上图,当给出的问题示例中只有最终结果,而没有中间的推理过程时,大模型在见到新问题时往往会生成错误的答案;但如果给出的问题示例中包含了完整的思维链(中间推导步骤),大模型在新问题上也往往会输出完整的思维链并得到正确答案。然而,思维链提示依赖于大量中间步骤的输出,使用 Transformer 架构会产生大量的计算开销。因此,一个自然的问题便是:能否使用更少的计算量,实现思维链推理?许多架构致力于降低注意力机制带来的计算复杂度,能否在这些架构上使用 CoT 提升性能并实现推理的加速?

近期,来自北大和清华的研究团队从理论角度对上述问题进行了深入探讨。结果令人惊讶:两个团队一致证实包括 Sparse Transformer、Linear Transformer、Mamba 在内的许多架构,即使在这些模型上应用思维链,其理论上的能力上限仍无法解决多种实际推理问题,并与标准 Transformer 有本质差距。这些理论结果为高效结构的实用价值蒙上了一层阴影。

Transformer + CoT 依然是最佳选项

北大的研究团队将推理任务通用地建模为动态规划。在推理过程中,模型需要按照合法的拓扑排序逐步输出子问题的结果(即思维链),以最终得出原问题的解。他们从理论角度证明,若希望 Sparse Transformers、Linear Transformers 等模型通过思维链来解决动态规划问题,模型的宽度必须增加,进而导致时间复杂度恰好达到平方级别。这一时间复杂度与标准 Transformers 在相同长度的推理任务中所需的复杂度一致,表明这些所谓的高效结构在一般推理问题上并不具备计算优势。

殊途同归,清华的研究团队考虑了 RNN 模型和 Transformer 模型在检索、关联回忆、计数,以及判断一张图是否为树等基本问题上的表达能力差异。他们从理论角度证明了,对于问题规模 n,任意 o (n) 大小的 RNN 模型均无法完成上述任务,即便使用任意长的 CoT。但一个固定大小的 Transformer 可以不使用 CoT 解决检索、关联回忆、计数等问题,并使用 O (n) 长度的 CoT 正确判断一张图是否为树。这些结果表明类 RNN 的结构使用思维链获得的能力,距离 Transformer 仍有巨大差距

两个研究得出相似结论的背后,揭示了相似的本质。这些模型架构之所以具有内存高效性,是因为它们能够在较少的空间下完全确定输出序列。然而,输出序列的可能性指数级增长,这使得这些架构无法以较小的模型尺寸正确生成所有可能的输出。换句话说,模型的规模必须随着问题规模的增加而扩展。这一核心观察表明,包括 Mamba 在内的具有循环(recurrent)性质的网络架构,都受到了相同的限制。

如何提升其它模型使用思维链的能力?

在得到负面结论的同时,两个团队考虑不同角度设计解决方案。

北大研究团队从推理任务的局部性入手,即当前输出所需要向前依赖的最远输出的距离。局部性反映了推理所需要的长程记忆难度。他们从理论角度证明了,当推理任务有较好的局部性时,许多高效模型能够以理论更优的推理速度完美解决问题。

来自清华的研究团队则从引入上下文检索器的角度入手。他们从理论角度证明了,使用显式上下文检索器或使用一层 Transformer 作为隐式上下文检索器,均可以大大增强 RNN 使用思维链后获得的能力。

研究团队还设计了大量的实验验证理论结果。来自北大的研究团队在多种 Transformer 架构上使用 CoT 数据进行训练,表明标准 Transformer 架构事实上使用了最小的计算量。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

Figma
Figma

Figma 是一款基于云端的 UI 设计工具,可以在线进行产品原型、设计、评审、交付等工作。

下载
同时,他们的实验结果也表明了良好的推理局部性(下图右列)能够增强多种 Efficient Transformers 的思维链推理能力,表现在使用相同尺寸的模型时能够解决规模更大的推理任务。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

来自清华的研究团队则在 Mamba 和 Transformer 上使用判定图是否为树的任务进行训练,表明 Transformer 结构在此问题上相比于 Mamba 所具有的显著优势,以及在 RNN 上使用上下文检索对性能的影响。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2065

2024.08.16

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

6

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

104

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

12

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

101

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

5

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

105

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

29

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号