0

0

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

WBOY

WBOY

发布时间:2023-12-02 08:53:10

|

1571人浏览过

|

来源于搜狐

转载

“不服跑个分”这句话,我相信关注手机圈的朋友一定不会感到陌生。例如,安兔兔、geekbench等理论性能测试软件因为能够在一定程度上反映手机的性能,因此备受玩家的关注。同样地,在pc处理器、显卡上也有相应的跑分软件来衡量它们的性能

既然"万物皆可跑分",目前最火爆的AI大模型也开始参与跑分比拼,尤其是在"百模大战"开始后,几乎每天都有突破,各家都自称为"跑分第一"

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

国产AI大模型在性能评分方面几乎从未落后,但在用户体验方面却始终无法超越GPT-4。这就引发了一个问题,即在大促销售节点,各手机厂商总能够宣称自家产品“销量第一”,通过不断增加定语,将市场细分再细分,让每个人都有机会成为第一,但在AI大模型领域,情况却不同。毕竟,它们的评估标准基本上是统一的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估应对人类级任务的能力)

目前在国内常被引用的大型模型评测榜单有SuperCLUE、CMMLU和C-Eval。其中,CMMLU和C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集。而CMMLU则是由MBZUAI、上海交通大学和微软亚洲研究院共同推出。至于SuperCLUE,则是由各大高校的人工智能专业人士共同编写的

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

以C-Eval为例,在9月初的榜单上,云天励飞大模型 " 云天书 " 排在第一、360排第八,GPT-4却只能排在第十名。既然标准是可量化的,为什么会出现反直觉的结果呢?大模型跑分榜单之所以会呈现出“群魔乱舞”的景象,其实是目前评价AI大模型性能的方法有局限性,它们是用“做题”的方式来衡量大模型的能力。

众所周知,智能手机的SoC、电脑的CPU和显卡为了保护自身寿命,在高温情况下会自动降频,而低温则能提升芯片性能。因此,有些人会将手机放入冰箱中,或者为电脑配备更强大的散热系统来进行性能测试,通常能得到比正常状态下更高的成绩。此外,各大手机厂商也会进行“专属优化”,针对各类跑分软件,这已经成为他们的标准操作了

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

同样道理,人工智能大模型的评分以做题为核心,自然会有一个题库。没错,国内一些大模型在不断上榜的原因就在于这一点。由于各种原因,目前各大大模型榜单的题库对厂商几乎是单向透明的,也就是出现了所谓的“基准泄露”。例如,C-Eval榜单在刚上线时就有13948道题目,并且由于题库有限,出现了让某些不知名大模型通过刷题的方式“通关”的情况

大家可以想象一下,在考试之前,如果偶然看到了试卷和标准答案,然后突击背题,考试成绩将会大幅度提高。因此,将大模型榜单预设的题库加入训练集,这样一来大模型就成为了拟合基准数据的模型。而且,目前的LLM本身就以出色的记忆力而著称,背诵标准答案简直就是小菜一碟

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

通过这一方式,小尺寸模型在跑分中也能拥有比大尺寸模型更好的结果,部分大模型取得的高分就是在这样的“微调”下实现。人大高瓴团队在论文《Don't Make Your LLM an Evaluation Benchmark Cheater》中,就直白地指明了此类现象,而且这种投机取巧的做法对于大模型的性能反而是有害的。

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载

高瓴团队的研究人员发现,基准泄漏会导致大模型跑出夸张的成绩,例如1.3B的模型可以在某些任务上超越10倍体量的模型,但副作用就是这些专门为“应试”设计的大模型,在其他正常测试任务上的表现会受到不利影响。毕竟想想也能知道,AI大模型本来应该是“做题家”、却变成了“背题家”,为了获得某榜单的高分,去使用该榜单特定的知识和输出样式,肯定就会误导大模型。

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

训练集、验证集、测试集的不交叉显然只是理想状态,毕竟现实很骨感,数据泄露问题从根源上就几乎不可避免。随着相关技术的不断进步,当下大模型的基石Transformer结构的记忆和接收能力在不断提升,今年夏季微软研究院General AI的策略就已经实现了让模型接收1亿Tokens、而不会产生无法接受的遗忘。换而言之,未来AI大模型很有可能具有读取整个互联网的能力。

即使抛开技术进步,单纯以当下的技术水平,数据污染其实也难以规避,因为优质数据总归是稀缺、且产能有限的。AI研究团队Epoch在今年年初发表的论文就表明,AI不出5年就会把人类所有的高质量语料用光,而且这一结果是其将人类语言数据增长率,即全体人类未来5年内出版的书籍、撰稿的论文、编写的代码都考虑在内,所预测的结果。

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

如果一个数据集适合用于评估的话,那么它在预训练方面肯定也能够发挥更好的作用。例如,OpenAI的GPT-4就使用了权威的推理评估数据集GSM8K。因此,目前在大型模型评估领域存在一个尴尬的问题,大型模型对数据的需求似乎没有止境,这导致评估机构必须比人工智能大型模型制造商更快、更远地前进。然而,现如今评估机构似乎根本没有能力做到这一点

至于说为什么某些厂商会在大模型跑分上格外上心,纷纷去操作刷榜呢?其实这一行为背后的逻辑,就与App开发者给自家App的用户量注水一模一样。毕竟App的用户规模是衡量其价值的关键要素,而在当下这个AI大模型的起步阶段,评测榜单的成绩几乎就是唯一一个相对客观的评判标尺,毕竟在大众的认知里跑分高就等于性能强。

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

当刷榜可能带来强烈的宣传效应,甚至可能会为融资打下基础的情况下,商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

408

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

300

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

40

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

54

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号