0

0

信通院发布“方升”3.0 体系及大模型基准测试结果

花韻仙語

花韻仙語

发布时间:2025-10-09 18:07:00

|

625人浏览过

|

来源于php中文网

原创

中国信通院于日前正式发布新版本“方升”基准测试体系3.0。

“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升,新增模型基础属性测试,对参数规模、推理效率等底层特征进行体系化测试;同时前瞻性布局未来高级智能测试,围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力,并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。

为支撑“方升”3.0的实施,中国信通院将从以下几方面系统强化评测基础设施:

  • 一是扩容高质测试数据资源,围绕复杂推理、多模态、代码及智能体应用等重点领域和重点行业方向,未来将新增300万条高质量数据,满足多语言、多任务、多场景下的模型评测与优化需求。
  • 二是体系化研究和应用先进测试方法,聚焦大模型评测流程中的关键技术卡点,未来将突破高质量测试数据合成与质量评估、数据污染检测及人机对齐裁判模型构建等核心技术;同时围绕通用人工智能演进趋势,将率先构建高级智能能力的评测范式,实现对未来智能水平的前瞻性度量与引导。
  • 三是构建新一代智能评测基座,围绕智能体应用场景,未来将新增多智能体交互与环境感知的仿真测试环境,满足复杂真实场景下智能体协同交互、动态环境适应能力的系统性测试与评估需求;同时构建一体化基准评测系统,集成动态自适应测试工具、高级智能能力评估工具及评测数据全生命周期管理工具,实现评测能力的自动化、可扩展与前瞻性统一。

信通院发布“方升”3.0 体系及大模型基准测试结果

2024年起,中国信通院以两个月为周期开展大模型基准测试活动,目前已累计完成9轮评测。在最新一轮测试中,共对141个大模型和7个智能体进行了系统评估,覆盖大语言模型的基础、推理、代码能力,多模态模型的理解、生成能力以及智能体的通用能力。同时评测均采用多维度复合评估体系,涵盖69个细分测试维度,确保评估结果的全面性与科学性。

立即进入豆包AI人工智官网入口”;

立即学习豆包AI人工智能在线问答入口”;

1.大语言模型测试结果:

基础能力持续提升,在学科、数学、指令遵循等方面表现出色,但在幻觉、工具使用等方面仍有提升空间。OpenAI的GPT 5(8月7日发布)综合能力领先排名第一,效果优于国内阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2,国内外大语言模型在基础能力上差距较小。推理能力进展显著,在高阶数学、复杂学科任务场景提升明显,但在复杂中文推理场景有待加强。OpenAI的GPT 5在复杂数学、推理能力领先,排名推理榜单首位,xAI的Grok-4紧随其后;国内表现较好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest,但相较国际领先水平仍存在一定差距,这标志着全球大语言模型在推理能力的竞争已进入白热化阶段(如图3所示,此处仅展示排名前15的大模型)。

信通院发布“方升”3.0 体系及大模型基准测试结果

Elser AI Comics
Elser AI Comics

一个免费且强大的AI漫画生成工具,助力你三步创作自己的一出好戏

下载

2.多模态大模型测试结果

图像理解方面能力持续突破,在场景解析和颜色识别等基础任务表现突出,但在需要多步推导的复杂逻辑推理任务上性能有待加强。OpenAI的GPT-5整体表现仍居领先地位。国内模型中,腾讯混元与字节跳动豆包在细粒度对象识别与情绪感知任务中表现优异,而在复杂空间关系与因果推理的高阶认知任务中仍有提升空间。图像生成方面技术实现显著进步,生成结果在视觉真实感、细粒度细节及复杂指令跟随方面取得系统性进展。然而,在生成内容的逻辑一致性、交互自然度以及文化表达方面仍面临持续性的挑战。谷歌的Nano Banana(gemini-2.5-flash-image)小幅领先,国内字节跳动的Seedream 4.0、腾讯的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列,头部大模型竞争白热化。视频生成方面,在时序一致性建模和动态场景合成等方面取得进步,但物理合理性与情感表现力等维度仍是持续探索的重点。稀宇科技的Hailuo02、谷歌的Veo3、生数的Vidu Q2内测版排名靠前。总体来看,国内多家企业跻身前列,技术加速跃迁,头部格局初显。

信通院发布“方升”3.0 体系及大模型基准测试结果

3.代码应用能力测试结果

大模型代码应用能力在函数级这类单一问题方面,表现较为出色,但在真实项目级开发这类复杂任务中,仍存在明显短板。OpenAI的GPT-5在代码应用能力排名首位,月之暗面的Kimi-K2-0905版本排名国内第一,国内模型在游戏开发、应用开发等项目级任务中,其在功能实现完整度与效果呈现方面,仍与国际先进水平存在一定差距。在大模型代码能力方面,推理模型能力较基础模型更具备优势,本轮测试的Top 5中,有4个为推理模型,仅有1个为基础模型。不同模型间代码理解能力整体差异不大,代码生成能力差异较为显著,大模型的代码注释、代码解释、代码生成能力依次减弱。

信通院发布“方升”3.0 体系及大模型基准测试结果

4.智能体应用能力测试结果:

智能体应用能力相比大模型可以完成更复杂任务,但在细分任务上仍不及预期。综合表现方面,高度封装的智能体产品通过融合基座模型、MCP服务、智能体沙箱等,可以获得比GPT-5、o3等单一大模型更好的性能表现。细分场景表现方面,智能体仍处于起始发展阶段,自主性不断增强,但能力仍有一定提升空间。智能体在网页交互和复杂信息挖掘等任务上表现相对较好,主要得益于当前网页浏览工具较为成熟、基座模型推理能力不断提升。然而,在多模态理解任务方面,智能体普遍表现欠佳,暴露出其在视频内容解析、图表语义理解等关键环节的技术短板,同时存在工具调用策略不合理、信息源整合能力不足等问题。

信通院发布“方升”3.0 体系及大模型基准测试结果

下一步,中国信息通信研究院将持续加强大模型评测技术研发与推广,提升大模型评测公信力和权威性,支撑人工智能前沿创新与新型工业化发展。一是聚焦技术突破,夯实评测底层能力。攻关自动化测试、缺陷分析及未来高级智能评测技术,推动评测向“智能驱动”跃升。二是强化能力建设,拓展多模态多场景覆盖。拓展文本、图像、语音、视频等多模态和多应用场景,打造一体化自动测试平台,实现全能力覆盖。三是深化生态运营,构建闭环服务体系。提供测试分析、选型评估、闭环优化等专业服务,推进国际合作与公益测试,构建开放协同、可持续的大模型评测生态。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

392

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

30

2025.12.13

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

73

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号