0

0

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?

花韻仙語

花韻仙語

发布时间:2024-11-11 15:00:12

|

1172人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本篇工作已被 NeurIPS(Conference on Neural Information Processing Systems)2024 会议接收,并被评为  Oral Presentation (72/4553) 。该文章的第一作者陈麒光,目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。

该研究主要提出了推理边界框架(Reasoning Boundary Framework, RBF),首次尝试量化并优化思维链推理能力。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
  • 论文链接:https://arxiv.org/abs/2410.05695

  • 代码地址:https://github.com/LightChen233/reasoning-boundary

1. 大型语言模型(LLMs)与思维链推理能力

什么是思维链(Chain-of-Thought, CoT)?

近年来,大型语言模型(LLMs) 在处理各种复杂任务中取得了长足进展,从文本生成到问题解答,LLMs 几乎无所不能。然而,面对复杂的推理任务,LLMs 也存在瓶颈 —— 模型往往容易跳过推理的中间步骤,直接生成最终答案,这使得它们在应对复杂问题时容易犯错。

思维链推理(CoT) 是一种让模型分步推理复杂问题的方法。与传统模型的直接生成答案不同,CoT 通过逐步细化问题的每一步,从而得到更准确、更有逻辑的结果。

为什么它如此重要?

为什么 CoT 很重要?因为面对复杂的推理任务,模型往往会因为信息量大、推理路径复杂而犯错。CoT 的逐步推理策略使模型能够处理更具挑战性的任务 —— 从数学题解到现实决策问题,它能帮助模型分解任务,找到每个步骤的最佳解法。

这不仅提升了模型的准确性,还显著增强了它处理复杂任务的能力,使其能够应用于更广泛的实际场景中。

2. 模型推理的困境:复杂任务中的可解释性难题

想象这样一个情景 :你正在处理一个复杂的项目,需要模型综合多种能力,最终通过多步推理找到最优解决方案,那么这些能力和推理能力是如何组合,共同影响并改进最终性能的呢?

为了解决该问题,该文章通过研究以下几个问题来理解和解决这个问题。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
2.1 模型在面对复杂推理时,如何对推理能力进行量化?

当前多数研究依赖定性分析,缺乏统一的量化指标来系统比较不同的 CoT 推理方法。这种局限性导致研究者难以精确评估和预测模型在复杂任务中的推理能力上限,阻碍了对 CoT 推理效果的深入理解和科学验证。

为此,研究人员提出推理边界框架(Reasoning Boundary Framework, RBF),定义了模型在不同准确率对于的推理能力边界。并提出了三种推理边界以量化推理能力边界:完全可行推理边界(CFRB);完全不可行推理边界(CIRB); 部分可行推理边界(PFRB)。

2.2 推理能力与不同的其他能力如何组合?

在实际场景中,模型往往需要集成多种能力才能有效地解决某一任务。

为了定量描述如何通过思维链 CoT 机制实现多种能力的协同提升,研究者进一步提出了 “ 推理边界的组合律 ”,并推导并验证了该组合律的具体公式。

2.3 如何基于可解释性框架优化思维链?

虽然已有研究揭示了 CoT 推理的部分机制,但如何系统性地优化 CoT 推理的效率和效果仍缺少明确的策略与方法指导。这一不足限制了 CoT 技术在实际应用中的进一步改进与拓展。

根据推理边界框架,本文提出了最短可接受推理路径(MARP) 优化推理效率。无论是在复杂的数学推理还是多跳推理中,RBF 都能帮助模型在海量信息中找到最优路径,大幅提升推理效果。

3. 概念定义

3.1 推理边界

为了量化大型语言模型的复杂推理能力,如图 1 (a) 所示,研究者引入了推理边界(Reasoning Boundary, RB) 的概念,定义了 LLMs 在特定推理过程中能够处理的任务难度上限。

具体而言,RB 被定义为模型 m 和任务 t 作为问题难度 d 的最大值,模型的准确性达到预定义阈值NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
其中 Acc (t|d, m) 表示模型在难度为 d 的任务 t 上的准确率。难度可以通过推理步骤数或计算复杂度等因素来衡量。简而言之,RB 反映了模型在保持一定准确性(accuracy)的前提下,其推理能力的边界。

* 为了简洁起见,在后续文章中将 RB 表示为NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?

总结:模型的推理边界是由其针对给定任务难度实现特定准确度的能力来定义的。

3.2 推理边界间的组合律

在实际场景中,模型往往需要集成多种能力才能有效地解决某一任务。

为了定量描述如何通过思维链 CoT 机制实现多种能力的协同提升,研究者提出了“推理边界的组合律”,并推导出 CoT 能力上限的具体公式。

该定律估计模型 m 内 n 个任务的统一推理边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?,即表述为:
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
其中NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?表示任务NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?的推理边界。NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?是缩放因子,仅受相关任务影响。如图 1 (b) 所示,该方程提供了一个数学公式来估计独立 RB 的组合,从而可以更深入地了解复杂任务的模型行为。

总结:推理边界的组合律描述了多个推理能力的协同效应,满足加权调和平均公式,用以估计模型在多个任务上的整体推理能力。

3.3 推理边界划分
此外,为了指导 CoT 的优化和更方便的表达,如图 1 (c) 所示,研究者根据经验准确性定义了以下三类 RB:

  1. 完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?),这意味着 LLM 可以有效地掌握这部分的表现。

  2. 完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?),这意味着模型永远无法有效掌握这部分的性能。

  3. 部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?),这需要模型重复思考或者更清晰的信息来解决问题。

研究者通过详细分析了这三类 RB 的性质,进一步结合组合律来优化这三个推理边界,从而为支持未来 CoT 优化提供有效的建议和指导。

4. 实验设置
  1. 模型设置:研究者们采用了 GPT-3.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。

  2. 基准设置:为了更好地评估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。

5. 验证性实验

5.1 推理边界存在性验证

研究者们通过实证分析,验证了推理边界在三类任务中的普遍性:

在基础算术运算中,呈现出三种不同的推理边界 (图 2 (a));
在自然语言规划任务中,同样展现出三种不同的推理边界 (图 2 (b));
在代码规划任务中,仍然表现出一致的三种推理边界 (图 2 (c))。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
5.2 推理边界组合律验证

在实际应用中,模型通常需要集成多种能力才能高效解决复杂任务。为此,研究者们进一步地验证了实际场景中,推理边界组合律的广泛适用性:

  • 复杂多项式计算的推理边界:可视为 ①计算步骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。
  • 复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。
  • 多跳问答的推理边界:可被视作 ①多跳规划 与 ②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
5.3 不同推理边界的不同性质

研究者验证了不同推理边界在模型中的性质:

  • 完全可行推理边界-->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。

  • 部分可行推理边界-->不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。

  • 完全不可行推理边界-->完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,即便采用 Self-consistency,模型的准确率仍难以得到提升。

  • 大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合其推理边界的样本,特别是在完全可行推理边界范围内,而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
6. 基于推理边界的 CoT 优化

为了进一步优化思维链的表现,研究者们提出了基于推理边界优化的多种策略,并对这些策略进行了全面的实验验证,揭示了如何通过调整 RB 提升复杂任务中的推理能力。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
6.1 推理边界优化策略

工具使用可以提升大语言模型的推理边界

当模型使用工具时,可以简单地认为模型可以以无限精度执行计算,因此数学计算的推理边界趋向于无穷大,即NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?。显然,模型的组合推理边界可以计算为:
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
其中,c 表示计算任务,p 表示规划任务。很容易得出,NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?,这表明工具使用可以提高推理的边界。这解释了为什么工具使用比普通的推理链性能更好(见表 1)。此外,如图 5 所示,理论推理边界与实际推理边界的分布几乎完美重合,这也证明了该假设的可靠性和适用性。

程序化思维可以进一步提升大语言模型的推理边界。

由工具使用的组合推理边界计算公式可得,LLM 的推理边界完全取决于其规划能力。由于自然语言可能过于冗长,它会妨碍 LLM 的规划能力。因此,程序化思维(Program-of-Thought,PoT)通过代码提供了更清晰的逻辑表示,使得规划更为清晰(如图 2 (b, c) 所示)。所以,这导致更好的步骤规划推理边界,即NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?。那么,PoT 的推理边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?

6.2 推理路径优化策略

对于固定推理方式的模型而言,其推理边界(即能力边界)是相对固定的。因此,关键问题在于如何通过优化策略,提升模型的推理能力,使得优化后的推理边界超越原问题所需的边界。
  • Complex CoT 在推理步骤与性能之间的平衡

  • 单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?,这有助于提高整体的推理能力。

    科大讯飞-AI虚拟主播
    科大讯飞-AI虚拟主播

    科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;

    下载
  • 规划难度增加:然而,推理步骤的过度增加可能带来负面影响:原问题在准确率较高的边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?上,经过 Complex CoT,可能落到准确率较低的边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?上,其中NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?。这意味着过多的推理步骤可能导致组合推理准确度的下降。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
  • 在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表现产生负面影响。

  • Least-to-Most 的分步优化策略

局部规划压力缓解:通过将问题拆解为多个子问题,如图 7 所示,可以有效减少每个步骤内的规划压力,对各种不同计算量的问题都能有一定的性能提升。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
全局规划难度增加:虽然这种策略能够降低局部规划负担,它同时引入了全局分解规划中的额外推理边界NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?。如图 15 所示,接近 70% 的全局规划数超过了 5 步,严重加大了模型规划难度,从而使实际的组合推理边界对应的准确率下降。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
  • 最短可接受推理路径提示(MARP)

为了克服上述策略的局限性,研究者提出了最短可接受推理路径提示(MARP)策略。该策略通过提示大模型在每个步骤中尽可能高效地执行计算,同时减少不必要的全局规划,从而降低了模型的计算负担和规划复杂度:
  • 最小化推理路径提示:为了减轻与规划相关的认知负担,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
  • 可接受推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
实验结果(见表 1)显示,MARP 显著提高了模型性能,并有效减少了 token 的使用量。

7. 拓展性探索

7.1 模型扩展验证
  • 推理边界与模型准确率的正相关性:研究者通过对 25 个不同模型的推理边界表现进行分析,发现推理边界与数学任务中的准确率呈现出正相关关系。

  • 数学模型与通用模型在推理边界 - 准确率分布上的差异:通过数学数据微调的模型,推理边界 - 准确率分布虽然呈现出正相关,但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。

  • 开源模型在完全可行推理边界上的局限性:开源模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其在未来优化中的潜力。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
7.2 任务扩展验证

更进一步地,该研究不仅验证了在数学运算、数学推理和多跳问答任务中的推理边界扩展规律,还进一步探索了在多语言推理和医疗推理任务中的表现。
  • 多语言推理:通过将多语言能力、数学计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进一步证实了此方法的普适性和稳定性。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
  • 医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结合,验证了推理边界在正交组合后仍然保持一致,说明该推理策略同样适用于医疗推理任务。

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
8. 如何理解 o1 的优异性能?

为了深入理解当前最先进的大型语言模型 o1,研究人员利用推理边界框架对 GPT 系列模型进行了全面评估。

如图 11 所示,与早期版本相比,各项推理边界指标均有显著提升,模型性能也随之增强。特别是,尽管 GPT-3.5 与 GPT-4o 之间在 完全不可行推理边界(CIRB) 上的改进幅度较大,但 完全可行推理边界(CFRB) 的提升相对较小。然而,在 GPT-o1 版本中,完全可行推理边界的表现则有了显著改善。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
进一步来看,图 14 揭示了 GPT-o1 版本在完全可行推理边界上的卓越表现,提升幅度几乎是其他模型的三倍。
NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
研究人员认为,这一成果主要归功于逻辑强化学习技术的进步和 Inference Scaling Law 策略的优化。这些新策略在提升完全可行推理边界方面起到了关键作用,远远超越了常规的改进路径。这一现象可能为未来研究提供了新的方向和启示。

总结

本研究提出了一个推理边界(RB)框架,系统量化并优化大语言模型(LLMs)在思维链(CoT)任务中的推理能力边界。通过定义推理边界和应用优化策略,合理解释了多个 CoT 策略其在推理性能上的优势。同时,最短可接受推理路径(MARP)策略通过减少不必要的推理步骤,显著提高了不同任务中的推理性能与效率。研究者希望 RB 框架能够为相关研究提供理论基础,推动 LLMs 在复杂推理任务中的发展。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6142

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1065

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1340

2024.03.01

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

748

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2069

2024.08.16

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.5万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号