0

0

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

PHPz

PHPz

发布时间:2023-05-27 21:13:04

|

1068人浏览过

|

来源于51CTO.COM

转载

随着中文大规模语言模型在自然语言理解与自然语言生成方面展现出强大的性能,现有针对特定自然语言处理任务的中文评测基准数据集已经不足以对中文大模型进行有效地评估。传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。目前,针对中文大模型复杂知识评测的数据集十分匮乏,特别是涉及我国教育体系下不同层次和不同领域的专业知识。

为了弥补这一差距,天津大学自然语言处理实验室与华为诺亚方舟实验室联合发布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案


  • 论文链接:https://arxiv.org/abs/2305.10263
  • 数据链接:https://github.com/tjunlp-lab/M3KE

M3KE 数据集

数据集介绍

M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科,分布如 Fig 1 所示。

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

研究人员基于两个标准构建 M3KE 数据集:

1,契合中国教育体系,覆盖多教育阶段

研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。

2,覆盖多学科领域

为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。

数据集统计

Table 3 显示了 M3KE 的整体统计数据。上述四个学科类别中的任务数量分别为 12、21、31 和 7,而四个学科类别中的问题数量分别为 3,612、6,222、8,162 和 2,126。任务中包含的问题最大数量为 425,最小数量为 100。社会科学和自然科学的问题通常比艺术与人文学科和其他科目的问题更长,而它们的答案选项较短。

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

多学科视角下的 M3KE 介绍及示例

人文艺术

人文与艺术学科包括语文、艺术和历史等多个领域的学科。这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。除人文学科外,M3KE 还包括艺术科目,如舞蹈、美术、音乐、电影等,艺术是人类文化的重要组成部分,评测中文大模型在艺术领域的表现同样重要。

美术任务示例:

下面关于拉斯科洞穴壁画说法错误的是?

A. 这个壁画是在法国发现的

B. 发现的动物形象有 100 多个

C. 发现的时间为 1940 年

D. 壁画颜色以黑色为主

世界近现代史任务示例:

从尼德兰革命到法国大革命历时两个多世纪,而此后仅半个世纪资本主义就初步形成了一个世界体系,这主要是因为?

A. 法国大革命的影响得到广泛传播

B. 维也纳体系激化了各国社会矛盾

C. 工业革命使资本主义力量迅速增强

D. 殖民统治遍及世界各大洲

社会科学

社会科学重在人文学科的应用,如法律、政治、教育和心理等学科。政治课程贯穿初中、高中、大学、研究生多个教育阶段,其他学科则主要分布在大学阶段的课程中。社会科学还包括经济和管理学任务,这些任务的试题选自中国研究生入学考试中的经济学联考和管理学联考,知识涉及微观经济学、宏观经济学、管理学和逻辑学等。

刑法学任务示例:

甲欲杀乙,将毒药投入乙的饭食中。乙服食后,甲后悔,赶紧说明情况,并将乙送往医院。医院在过程中检查发现,甲所投放的 "毒药" 根本没有毒性,乙安然无恙。甲的行为属于?

A. 不构成犯罪

B. 犯罪未遂

C. 犯罪中止

D. 犯罪既遂

教育学原理任务示例:

教育研究中最基本、最常用的研究方法是?

A. 教育观察研究

B. 教育调查研究

C. 教育测量研究

D. 教育实验研究

自然科学

自然科学包括工程学、科学、医学和数学、物理学、化学、生物学等基础学科。这些学科通常需要复杂的计算、分析和逻辑推理能力。在我国教育体系中,同一学科在不同阶段会涉及不同类型的知识。例如,小学数学主要学习基本的算术运算,而高中数学则涵盖更高级的数学概念,如数列、导数、几何等。

动物生理学任务示例:

使用普鲁卡因麻醉神经纤维,影响了神经纤维传导兴奋的哪一项特征?

A. 生理完整性

B. 绝缘性

C. 双向传导性

D. 相对不疲劳性

操作系统任务示例:

目录形式对文件的检索效率影响很大,下列最高级的目录形式是?

A. 单级目录

B. 两级目录

C. 三级目录

D. 树形目录

其它

其他类型的任务包括宗教、中国公务员考试,计算机等级考试等。这些任务需要的知识不局限于上述单一层次或学科的知识。如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。

中国公务员考试任务示例:

以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。而一项最新的、更为可靠的研究得出的结论是:食用巧克力与心脏病发病率无关。估计这项研究成果公布以后,巧克力的消费量将会大大增加。上述推论基于以下哪项假设?

A. 尽管有些人知道食用巧克力会增加患心脏病的可能性,却照样大吃特吃

B. 人们从来也不相信进食巧克力会更容易患心脏病的说法

C. 现在许多人吃巧克力是因为他们没有听过巧克力会导致心脏病的说法

D. 现在许多人不吃巧克力完全是因为他们相信巧克力会诱发心脏病

中医学任务示例:

人参有大补元气、益气固脱的作用,而用于慢性虚弱性疾病常以何药作代用品?

丹参

党参

黄芪

太子参

多教育阶段视角下的 M3KE 介绍和示例

研究人员按照中国教育体系对数据集进行了分阶段,包括小学、初中、高中、大学及研究生入学考试。同样,研究人员还选择一些教育体系外的考试科目,如计算机等级考试和中国公务员考试等。

小学

小学语文任务示例:

下列词语书写完全正确的一项是?

A. 天籁之音   行云流水   笔走龙蛇   翻箱倒柜

B. 高山流水   轻歌曼舞   画龙点睛   别出心栽

C. 余音绕梁   巧夺天功   妙笔生花   焦躁不安

D. 黄钟大吕   惟妙惟肖   栩栩如生   精兵减政

小学数学任务示例:

一件商品,先提价 20%,以后又降价 20%,现在的价格与原来相比?

A. 提高了

B. 降低了

C. 不变

D. 不知道

初中

初中语文任务示例:

下列说法正确的一项是?

A. 《最苦与最乐》选自《梁启超文选》,作者梁启超是明代思想家、学者

B. 《邹忌讽齐王纳谏》选自《战国策》,《战国策》是战国时游说之士的策谋和言论的汇编,由东汉的刘向编订为三十三篇

C. 词又称 “长短句”,句式长短不一。兴盛于宋代,苏轼和辛弃疾是豪放派的代表人物,而李清照是婉约派的代表人物

D.《岳阳楼记》实际上是一篇借物言志的文章,寄寓了作者与民同乐的思想

初中政治任务示例:

班级要以 “崇尚法治精神” 为主题制作黑板报,小兰负责 “践行平等” 版块内容的编写。以下她搜集的素材适合入选的是?

A. 公交车上设有 “老弱病戏孕” 爱心专座

B. 中学生到革命传统教育基地参加研学活动

C. 解放军战士不畏严寒酷暑,守卫祖国边疆

D. 同学们利用节假日到街头清除小广告

高中

高中语文任务示例:

沈括在《梦溪笔谈》中说道:“天地之变,寒暑风雨,水旱螟蝗,率皆有法。” 这句话的哲学寓意是?

A. 规律是客观事物变化的根本原因

B. 规律具有客观性、普遍性  

C. 要学会用联系的观点看问题     

D. 要学会用发展的观点看问题

高中生物任务示例:

环境容纳量取决于一个种群所处的环境条件。下列叙述正确的是?

甲乙两地的灰喜鹊种群的环境容纳量一定是相同的

生活在某草原的东亚飞蝗不同年份的环境容纳量可能是相同的

当种群数量接近环境容纳量时,死亡率会升高,出生率不变

生活在微山湖中的鲫鱼和黑鱼环境容纳量是相同的

大学

大学口腔医学任务示例:

排在我国口腔癌之首的是?

A. 牙槽黏膜癌

B. 颊黏膜癌

C. 唇癌

D. 舌癌

大学经济学综合任务示例:

下列项目哪一项应计入 GDP?

A. 政府转移支付

B. 购买一辆用过的汽车

C. 企业支付的贷款和债券利息

D. 购买彩票赢得的 1 万元

其它

计算机等级考试之计算机基础任务示例:

因某工作表数据非常多,在滚动浏览时第一行的标题无法始终看到,应如何操作才能始终看到标题行,最快捷的方法是?

A. 设置 “打印标题”

B. 冻结窗格

C. 冻结首行

D. 冻结首列

宗教任务示例:

宗教能够与社会主义社会相适应的政治基础是?

A. 人民民主专政国家政权的建立

B. 广大教徒是拥护社会主义制度的,同全国人民在根本利益上是一致的

C. 中国共产党领导和执政地位的确立

D. 独立自主,自办教会

实验

评测模型

  • GLM-335M/10B/130B,由清华大学开发的预训练大语言模型,支持中、英文双语。研究人员选择 GLM 中文版的三个模型,参数规模分别为 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多语言大模型,由数百名研究人员合作开发。
  • ChatGLM-6B,由清华大学开发的语言模型,使用指令数据微调,并通过基于人类反馈的强化学习进一步训练。
  • MOSS-16B-SFT, 由复旦大学开发的语言模型,实验中使用经过指令微调版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 开发的经过 20 万条指令微调的语言模型。
  • BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 开发的经过 200 万条指令微调的语言模型。
  • GPT-3.5-turbo,由 OpenAI 开发的语言模型。采用人工构建的高质量指令数据,进行人类反馈强化学习训练。

Zero-shot/Few-shot 评估

在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。

不同学科类别下的评测结果

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案


将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

不同教育阶段下的评测结果

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

实验结果分析

1,在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。

2,大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。

3,在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。

4,少样本的设置在大多数情况下并没有带来性能的改善(Table 5&7 vs Table 4&6),尤其是经过指令微调或基于人类反馈的强化学习训练后的语言模型。这表明对预训练语言模型进行指令微调可以显著提升语言模型的零样本学习能力,不需要额外的示例就能理解指令或问题的意图。

结论

研究人员提出了一个新的基准 M3KE,用于评估中文大模型在多个学科和不同教育阶段下中文大模型知识掌握能力。M3KE 包含 71 个任务和 20,447 个问题。研究人员发现,所有参与评估的开源中文大模型都明显落后于 GPT-3.5。研究人员希望 M3KE 有助于发现中文大模型的知识漏洞,促进中文大模型进一步的发展。

M3KE 中所有的任务

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4455

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2957

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

70

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

62

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号