一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

WBOY

发布时间：2023-12-02 08:53:10

1571人浏览过

来源于搜狐

转载

“不服跑个分”这句话，我相信关注手机圈的朋友一定不会感到陌生。例如，安兔兔、geekbench等理论性能测试软件因为能够在一定程度上反映手机的性能，因此备受玩家的关注。同样地，在pc处理器、显卡上也有相应的跑分软件来衡量它们的性能

既然"万物皆可跑分"，目前最火爆的AI大模型也开始参与跑分比拼，尤其是在"百模大战"开始后，几乎每天都有突破，各家都自称为"跑分第一"

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

国产AI大模型在性能评分方面几乎从未落后，但在用户体验方面却始终无法超越GPT-4。这就引发了一个问题，即在大促销售节点，各手机厂商总能够宣称自家产品“销量第一”，通过不断增加定语，将市场细分再细分，让每个人都有机会成为第一，但在AI大模型领域，情况却不同。毕竟，它们的评估标准基本上是统一的，其中包括MMLU（用于衡量多任务语言理解能力）、Big-Bench（用于量化和外推LLMs的能力），以及AGIEval（用于评估应对人类级任务的能力）

目前在国内常被引用的大型模型评测榜单有SuperCLUE、CMMLU和C-Eval。其中，CMMLU和C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集。而CMMLU则是由MBZUAI、上海交通大学和微软亚洲研究院共同推出。至于SuperCLUE，则是由各大高校的人工智能专业人士共同编写的

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

以C-Eval为例，在9月初的榜单上，云天励飞大模型 " 云天书 " 排在第一、360排第八，GPT-4却只能排在第十名。既然标准是可量化的，为什么会出现反直觉的结果呢？大模型跑分榜单之所以会呈现出“群魔乱舞”的景象，其实是目前评价AI大模型性能的方法有局限性，它们是用“做题”的方式来衡量大模型的能力。

众所周知，智能手机的SoC、电脑的CPU和显卡为了保护自身寿命，在高温情况下会自动降频，而低温则能提升芯片性能。因此，有些人会将手机放入冰箱中，或者为电脑配备更强大的散热系统来进行性能测试，通常能得到比正常状态下更高的成绩。此外，各大手机厂商也会进行“专属优化”，针对各类跑分软件，这已经成为他们的标准操作了

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

同样道理，人工智能大模型的评分以做题为核心，自然会有一个题库。没错，国内一些大模型在不断上榜的原因就在于这一点。由于各种原因，目前各大大模型榜单的题库对厂商几乎是单向透明的，也就是出现了所谓的“基准泄露”。例如，C-Eval榜单在刚上线时就有13948道题目，并且由于题库有限，出现了让某些不知名大模型通过刷题的方式“通关”的情况

大家可以想象一下，在考试之前，如果偶然看到了试卷和标准答案，然后突击背题，考试成绩将会大幅度提高。因此，将大模型榜单预设的题库加入训练集，这样一来大模型就成为了拟合基准数据的模型。而且，目前的LLM本身就以出色的记忆力而著称，背诵标准答案简直就是小菜一碟

人民网AIGC-X

国内科研机构联合推出的AI生成内容检测工具

下载

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

通过这一方式，小尺寸模型在跑分中也能拥有比大尺寸模型更好的结果，部分大模型取得的高分就是在这样的“微调”下实现。人大高瓴团队在论文《Don't Make Your LLM an Evaluation Benchmark Cheater》中，就直白地指明了此类现象，而且这种投机取巧的做法对于大模型的性能反而是有害的。

高瓴团队的研究人员发现，基准泄漏会导致大模型跑出夸张的成绩，例如1.3B的模型可以在某些任务上超越10倍体量的模型，但副作用就是这些专门为“应试”设计的大模型，在其他正常测试任务上的表现会受到不利影响。毕竟想想也能知道，AI大模型本来应该是“做题家”、却变成了“背题家”，为了获得某榜单的高分，去使用该榜单特定的知识和输出样式，肯定就会误导大模型。

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

训练集、验证集、测试集的不交叉显然只是理想状态，毕竟现实很骨感，数据泄露问题从根源上就几乎不可避免。随着相关技术的不断进步，当下大模型的基石Transformer结构的记忆和接收能力在不断提升，今年夏季微软研究院General AI的策略就已经实现了让模型接收1亿Tokens、而不会产生无法接受的遗忘。换而言之，未来AI大模型很有可能具有读取整个互联网的能力。

即使抛开技术进步，单纯以当下的技术水平，数据污染其实也难以规避，因为优质数据总归是稀缺、且产能有限的。AI研究团队Epoch在今年年初发表的论文就表明，AI不出5年就会把人类所有的高质量语料用光，而且这一结果是其将人类语言数据增长率，即全体人类未来5年内出版的书籍、撰稿的论文、编写的代码都考虑在内，所预测的结果。

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

如果一个数据集适合用于评估的话，那么它在预训练方面肯定也能够发挥更好的作用。例如，OpenAI的GPT-4就使用了权威的推理评估数据集GSM8K。因此，目前在大型模型评估领域存在一个尴尬的问题，大型模型对数据的需求似乎没有止境，这导致评估机构必须比人工智能大型模型制造商更快、更远地前进。然而，现如今评估机构似乎根本没有能力做到这一点

至于说为什么某些厂商会在大模型跑分上格外上心，纷纷去操作刷榜呢？其实这一行为背后的逻辑，就与App开发者给自家App的用户量注水一模一样。毕竟App的用户规模是衡量其价值的关键要素，而在当下这个AI大模型的起步阶段，评测榜单的成绩几乎就是唯一一个相对客观的评判标尺，毕竟在大众的认知里跑分高就等于性能强。

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

当刷榜可能带来强烈的宣传效应，甚至可能会为融资打下基础的情况下，商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。

workbuddy运行缓慢怎么优化_workbuddy性能优化详解【详解】

QClaw怎么重新部署项目_QClaw重新部署步骤介绍【介绍】

豆包AI如何创建自动内容助手_豆包AI自动写作方法【教程】

QClaw在不同系统功能一样吗_QClaw系统差异介绍【介绍】

OpenClaw命令行使用_OpenClaw命令使用详解【详解】

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板