0

0

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

WBOY

WBOY

发布时间:2023-11-17 12:38:44

|

801人浏览过

|

来源于51CTO.COM

转载

如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?

今年,有人在匈牙利全国数学期末考试刚刚公布的题目上进行了一次全面测试

很多模型一下子就“现原形”了。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准

再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显下降,与同规模大模型差不多了。

研究者把他们归类为“疑似或已知在GSM8k上训练过”

有人看过这项测试后表示,应该开始对那些从未见过的题目进行评测了

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

有些人认为,这种测试和每个人对大型模型实际使用的经验,是目前唯一可靠的评估方法

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

马斯克Grok仅次于GPT-4,开源Llemma成绩出色

测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者,也是测试中Lemma大模型的作者之一。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

让大模型考匈牙利全国高中数学期末考试,这招出自马斯克的xAI

为了排除xAI的Grok大模型无意中在网络数据中见过测试题的问题,除了几个常见的测试集,还额外进行了这项测试

这个考试今年5月底才考完,当前大模型基本没机会见过这套试题。

xAI发布时还公布了的GPT-3.5、GPT-4、Claude 2的成绩作为比较。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

在这组数据的基础上,Paster进行了进一步的测试,测试的对象是多个生成数学能力强的开源模型

并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上,供大家检验以及进一步测试其他模型。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

结果来看,GPT-4和Claude-2组成第一梯队,在GSM8k和新卷子上成绩都很高。

虽然这不代表GPT-4和Claude 2的训练数据中完全没有GSM8k的泄露题,但至少它俩泛化能力不错、能做对新题,就不计较了。

接下来,马斯克xAI的Grok-0(33B)和Grok-1(未公布参数规模)表现都不错。

Napkin AI
Napkin AI

Napkin AI 可以将您的文本转换为图表、流程图、信息图、思维导图视觉效果,以便快速有效地分享您的想法。

下载

Grok-1是“未作弊组”里成绩最高的,新卷子成绩甚至高过Claude 2。

Grok-0在GSM8k上的表现接近GPT3.5-Turbo,新卷子上略差一些。

除了上述几个封闭模型外,测试中的其他模型都是开源的

Code Llama系列是Meta自己在Llama 2基础上微调的,主打根据自然语言生成代码,现在看来数学能力比同规模的模型稍差

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

在Code Llama的基础上,多所大学和研究机构共同推出Llemma系列,并由EleutherAI开源。

团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集,训练后的Llemma能使用工具和做形式定理证明,无需任何进一步的微调。

在新的卷子上,Llemma 34B的表现接近于GPT-3.5 Turbo水平

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

Mistral系列则是法国AI独角兽Mistral AI训练的,Apache2.0开源协议比Llama更宽松,成为羊驼家族之后最受开源社区欢迎的基础模型。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

“过拟合组”里的OpenChat 3.5MetaMath Mistral都是基于Mistral生态微调而来。

MetaMathMAmmoTH Code则是基于Code Llama生态。

选择在实际业务中采用开源大模型的人需要小心避开这一组,因为它们很可能只是为了刷榜而表现出色,但实际能力可能不如同规模的其他模型强

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

不少网友都对Paster这项试验表示感谢,认为这正是了解模型实际情况所需要的。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

有些人表达了担忧:

从这一天起,所有训练大模型的人都会加入匈牙利历年数学考试题。

同时他认为,解决办法可能是有一家拥有专有测试的专门大模型评估公司

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

另一项提议是建立一个逐年更新的测试基准,来缓和过度拟合问题。

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

相关专题

更多
Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

44

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

58

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

36

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

75

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

21

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.6万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.2万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号