0

0

大模型走捷径「刷榜」?数据污染问题值得重视

WBOY

WBOY

发布时间:2023-11-09 14:25:11

|

1304人浏览过

|

来源于51CTO.COM

转载

生成式 AI 元年,大家的工作节奏快了一大截。

特别是,今年大家都在努力卷大模型:最近国内外科技巨头、创业公司都在轮番推出大模型,发布会一开,个个都是重大突破,每一家都是刷新了重要 Benchmark 榜单,要么排第一,要么第一梯队。

在兴奋于技术进展速度之快后,很多人发现似乎也有些不对味:为什么排行榜第一人人有份?这是个什么机制?

于是乎,「刷榜」这个问题也开始备受关注。

近日,我们关注到朋友圈和知乎社区对大模型「刷榜」这一问题的讨论越来越多。特别是,知乎一篇帖子:如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象?引起了大家的讨论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型走捷径「刷榜」?数据污染问题值得重视

链接:https://www.zhihu.com/question/628957425

多家大模型刷榜机制曝光

该研究来自昆仑万维的「天工」大模型研究团队,他们上个月底把一份技术报告发布在了预印版论文平台 arXiv 上。

大模型走捷径「刷榜」?数据污染问题值得重视

论文链接:https://arxiv.org/abs/2310.19341

论文本身是在介绍 Skywork-13B,这是天工的一个大型语言模型(LLM)系列。作者引入了使用分段语料库的两阶段训练方法,分别针对通用训练和特定领域的增强训练。

和往常有关大模型的新研究一样,作者表示在流行的测试基准上,他们的模型不仅表现出色,而且在很多中文的分支任务上取得了 state-of-art 水平(就是业内最佳)。

重点是,该报告还验证了下很多大模型的真实效果,指出了一些其他一些国产大模型存在投机取巧的嫌疑。说的就是这个表格 8:

大模型走捷径「刷榜」?数据污染问题值得重视

在这里,作者为了验证目前业内几个常见大模型在数学应用问题基准 GSM8K 上的过拟合程度,使用 GPT-4 生成了一些与 GSM8K 形式上相同的样本,人工核对了正确性,并让这些模型在生成的数据集,和 GSM8K 原本的训练集、测试集上比了比,计算了损失。然后还有两个指标:

大模型走捷径「刷榜」?数据污染问题值得重视

Δ1 作为模型训练期间潜在测试数据泄漏的指标,较低的值表明可能存在泄漏。没有用测试集训练,那数值应该为零。

大模型走捷径「刷榜」?数据污染问题值得重视

Δ2 衡量数据集训练分割的过度拟合程度。较高的 Δ2 值意味着过拟合。如果没有用训练集训练过,那数值应该为零。

用简单的话来解释就是:如果有模型在训练的时候,直接拿基准测试里面的「真题」和「答案」来当学习资料,想以此来刷分,那么此处就会有异常。

好的,Δ1 和 Δ2 有问题的地方,上面都贴心地以灰色突出显示了。

网友对此评论道,终于有人把「数据集污染」这个公开的秘密说出来了。

也有网友表示,大模型的智力水平,还是要看 zero-shot 能力,现有的测试基准都做不到。

大模型走捷径「刷榜」?数据污染问题值得重视

图:截图自知乎网友评论

在作者与读者中互动中,作者也表示,希望「让大家更理性看待刷榜这个事情,很多模型和 GPT4 的差距还很大」。

大模型走捷径「刷榜」?数据污染问题值得重视

图:截图自知乎文章 https://zhuanlan.zhihu.com/p/664985891

数据污染问题值得重视

其实,这并不是一时的现象。自从有了 Benchmark,此类问题时常会有发生,就像今年 9 月份 arXiv 上一篇极具嘲讽意味的文章标题指出的一样 Pretraining on the Test Set Is All You Need。

大模型走捷径「刷榜」?数据污染问题值得重视

除此之外,最近人民大学、伊利诺伊大学香槟分校一个正式研究同样指出了大模型评估中存在的问题。标题很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

大模型走捷径「刷榜」?数据污染问题值得重视

论文链接:https://arxiv.org/abs/2311.01964

Imagine By Magic Studio
Imagine By Magic Studio

AI图片生成器,用文字制作图片

下载

论文指出,当前火热的大模型领域让人们关心基准测试的排名,但其公平性和可靠性正在受到质疑。其中主要的问题就是数据污染和泄露,这样的问题可能会被无意识地触发,因为我们在准备预训练语料库时可能不知道未来的评估数据集。例如,GPT-3 发现预训练语料库中包含了 Children's Book Test 数据集,LLaMA-2 的论文曾提到提取了 BoolQ 数据集中的上下文网页内容。

数据集是需要很多人花费大量精力收集、整理和标注的,优质的数据集如果优秀到能被用于评测,那自然也有可能会被另一些人用于训练大模型。

另一方面,在使用现有基准进行评估时,我们评测的大模型的结果大多是通过在本地服务器上运行或通过 API 调用来获得的。在此过程中,没有严格检查任何可能导致评估绩效异常提高的不当方式(例如数据污染)。

更糟糕的是,训练语料库的详细组成(例如数据源)通常被视为现有大模型的核心「秘密」。这就更难去探究数据污染的问题了。

大模型走捷径「刷榜」?数据污染问题值得重视

也就是说,优秀数据的数量是有限的,在很多测试集上,GPT-4 和 Llama-2 也不一定就没问题。比如在第一篇论文中提到的 GSM8K,GPT-4 在官方 technical report 里提到过使用了它的训练集。

你不是说数据很重要吗,那么用「真题」刷分的大模型,性能会不会因为训练数据更优秀而变得更好呢?答案是否定的。

研究人员实验发现,基准泄漏会导致大模型跑出夸张的成绩:例如 1.3B 的模型可以在某些任务上超越 10 倍体量的模型。但副作用是,如果我们仅使用这些泄露的数据来微调或训练模型,这些专门应试的大模型在其他正常测试任务上的表现可能会受到不利影响。

因此作者建议,以后研究人员在评测大模型,或是研究新技术时应该:

  • 使用更多来自不同来源的基准,涵盖基本能力(例如文本生成)和高级能力(例如复杂推理),以全面评估 LLM 的能力。
  • 在使用评估基准时,在预训练数据和任何相关数据(例如训练和测试集)之间执行数据净化检查非常重要。此外,还需要报告评估基准的污染分析结果作为参考。如有可能,建议公开预训练数据的详细组成。
  • 建议应采用多样化的测试提示来减少提示敏感性的影响。在基准数据和现有预训练语料库之间进行污染分析,提醒任何潜在的污染风险也很有意义。为了进行评估,建议每次提交都附有一份特殊的污染分析报告。

最后想说,好在这个问题开始逐渐引起大家的关注,无论是技术报告、论文研究还是社区讨论,都开始重视大模型「刷榜」的问题了。

对此,你有什么看法与有效建议呢?

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

169

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号