华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

王林

发布时间：2023-06-05 13:22:29

975人浏览过

来源于51CTO.COM

转载

大模型能力涌现，参数规模越大越好？

然而，越来越多的研究人员声称，小于10B的模型也可以实现与GPT-3.5相当的性能。

真是如此吗？

OpenAI发布GPT-4的博客中，曾提到：

在随意的对话中，gpt-3.5与gpt-4间的差别或许非常细微。当任务的复杂性达到足够阈值时，差异就会出现——gpt-4比gpt-3.5更可靠、更有创意，并且能够处理更细微的指令。

谷歌的开发者对PaLM模型也进行了类似的观察，他们发现，大模型的思维链推理能力明显强于小模型。

这些观察都表明，执行复杂任务的能力，才是体现大模型能力的关键。

就像那句老话，模型和程序员一样，「废话少说，show me the reasoning」。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

来自爱丁堡大学、华盛顿大学、艾伦AI研究所的研究人员认为，复杂推理能力是大模型在未来进一步朝着更加智能化工具发展的基础。

基本的文字总结归纳能力，大模型执行起来确实属于「杀鸡用牛刀」。

针对这些基础能力的测评，对于研究大模型未来发展似乎是有些不务正业。

论文地址：https://arxiv.org/pdf/2305.17306.pdf

DeepSider

浏览器AI侧边栏对话插件，集成多个AI大模型

下载

大模型推理能力哪家强？

这也就是为什么研究人员编制了一个复杂推理任务列表Chain-of-Thought Hub，来衡量模型在具有挑战性的推理任务中的表现。

测试项目包括，数学（GSM8K)），科学（MATH，定理 QA），符号（BBH），知识（MMLU，C-Eval），编码（HumanEval）。

这些测试项目或者数据集都是针对大模型的复杂推理能力下手，没有那种谁来都能答得八九不离十的简单任务。

研究人员依然采用思维链提示（COT Prompt）的方式来对模型的推理能力进行测评。

对于推理能力的测试，研究人员只采用最终答案的表现作为唯一的衡量标准，而中间的推理步骤不作为评判的依据。

如下图所示，当前主流模型在不同推理任务上的表现。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

测试结果：模型越大推理能力越强

研究人员的研究专注于当前流行模型，包括GPT、Claude、PaLM、LLaMA和T5模型家族，具体而言：

OpenAI GPT包括GPT-4（目前最强）、GPT3.5-Turbo（更快，但能力较弱）、text-davinci-003、text-davinci-002和code-davinci-002（Turbo之前的重要版本）。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

Anthropic Claude包括claude-v1.3（较慢但能力较强）和claude-instant-v1.0（较快但能力较弱）。

Google PaLM，包括PaLM、PaLM-2，以及它们的指令调整版本（FLan-PaLM和Flan-UPaLM），强基础和指令调整模型。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

Meta LLaMA，包括7B、13B、33B和65B变体，重要的开放源码的基础模型。

GPT-4在GSM8K和MMLU上明显优于其他所有模型，而Claude是唯一一个与GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等较小的模型掉队掉的厉害。

通过实验，研究人员发现，模型性能通常与规模相关，大致呈对数线性趋势。

不公开参数规模的模型，通常比公开规模信息的模型表现更好。

LLaMA-65B推理能力接近ChatGPT

另外，研究者指出，开源社区可能仍需要探索关于规模和RLHF的「护城河」以进一步改进。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

论文一作符尧总结道：

1. 开源和封闭之间存在明显的差距。

2. 大多数排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近code-davinci-002，GPT-3.5的基础模型

4. 综合上述，最有希望的方向是「在LLaMA 65B上做RLHF」。

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

针对这个项目，作者对未来的进一步优化进行了说明：

未来会增加更多包括更精心选择的推理数据集，尤其是衡量常识推理、数学定理的数据集。

以及调用外部 API 的能力。

更重要的是要囊括更多语言模型，例如基于 LLaMA 的指令微调模型，例如 Vicuna7等等开源模型。

还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。

总之，作者相信这个项目可以作为评估和指导开源大语言模型发展的一个公益设施发挥很大作用。

OpenClaw部署常见问题_OpenClaw部署故障解答【解答】

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

相关专题

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

560

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

620

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

3046

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

1101

2024.03.05

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2930

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板