信通院发布“方升”3.0 体系及大模型基准测试结果

花韻仙語

发布时间：2025-10-09 18:07:00

625人浏览过

来源于php中文网

原创

中国信通院于日前正式发布新版本“方升”基准测试体系3.0。

“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升，新增模型基础属性测试，对参数规模、推理效率等底层特征进行体系化测试；同时前瞻性布局未来高级智能测试，围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力，并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。

为支撑“方升”3.0的实施，中国信通院将从以下几方面系统强化评测基础设施：

一是扩容高质测试数据资源，围绕复杂推理、多模态、代码及智能体应用等重点领域和重点行业方向，未来将新增300万条高质量数据，满足多语言、多任务、多场景下的模型评测与优化需求。
二是体系化研究和应用先进测试方法，聚焦大模型评测流程中的关键技术卡点，未来将突破高质量测试数据合成与质量评估、数据污染检测及人机对齐裁判模型构建等核心技术；同时围绕通用人工智能演进趋势，将率先构建高级智能能力的评测范式，实现对未来智能水平的前瞻性度量与引导。
三是构建新一代智能评测基座，围绕智能体应用场景，未来将新增多智能体交互与环境感知的仿真测试环境，满足复杂真实场景下智能体协同交互、动态环境适应能力的系统性测试与评估需求；同时构建一体化基准评测系统，集成动态自适应测试工具、高级智能能力评估工具及评测数据全生命周期管理工具，实现评测能力的自动化、可扩展与前瞻性统一。

信通院发布“方升”3.0 体系及大模型基准测试结果

2024年起，中国信通院以两个月为周期开展大模型基准测试活动，目前已累计完成9轮评测。在最新一轮测试中，共对141个大模型和7个智能体进行了系统评估，覆盖大语言模型的基础、推理、代码能力，多模态模型的理解、生成能力以及智能体的通用能力。同时评测均采用多维度复合评估体系，涵盖69个细分测试维度，确保评估结果的全面性与科学性。

立即进入“豆包AI人工智官网入口”；

立即学习“豆包AI人工智能在线问答入口”；

1.大语言模型测试结果：

基础能力持续提升，在学科、数学、指令遵循等方面表现出色，但在幻觉、工具使用等方面仍有提升空间。OpenAI的GPT 5（8月7日发布）综合能力领先排名第一，效果优于国内阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2，国内外大语言模型在基础能力上差距较小。推理能力进展显著，在高阶数学、复杂学科任务场景提升明显，但在复杂中文推理场景有待加强。OpenAI的GPT 5在复杂数学、推理能力领先，排名推理榜单首位，xAI的Grok-4紧随其后；国内表现较好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest，但相较国际领先水平仍存在一定差距，这标志着全球大语言模型在推理能力的竞争已进入白热化阶段（如图3所示，此处仅展示排名前15的大模型）。

信通院发布“方升”3.0 体系及大模型基准测试结果

PPT.AI

AI PPT制作工具

下载

2.多模态大模型测试结果

图像理解方面能力持续突破，在场景解析和颜色识别等基础任务表现突出，但在需要多步推导的复杂逻辑推理任务上性能有待加强。OpenAI的GPT-5整体表现仍居领先地位。国内模型中，腾讯混元与字节跳动豆包在细粒度对象识别与情绪感知任务中表现优异，而在复杂空间关系与因果推理的高阶认知任务中仍有提升空间。图像生成方面技术实现显著进步，生成结果在视觉真实感、细粒度细节及复杂指令跟随方面取得系统性进展。然而，在生成内容的逻辑一致性、交互自然度以及文化表达方面仍面临持续性的挑战。谷歌的Nano Banana（gemini-2.5-flash-image）小幅领先，国内字节跳动的Seedream 4.0、腾讯的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列，头部大模型竞争白热化。视频生成方面，在时序一致性建模和动态场景合成等方面取得进步，但物理合理性与情感表现力等维度仍是持续探索的重点。稀宇科技的Hailuo02、谷歌的Veo3、生数的Vidu Q2内测版排名靠前。总体来看，国内多家企业跻身前列，技术加速跃迁，头部格局初显。

信通院发布“方升”3.0 体系及大模型基准测试结果

3.代码应用能力测试结果

大模型代码应用能力在函数级这类单一问题方面，表现较为出色，但在真实项目级开发这类复杂任务中，仍存在明显短板。OpenAI的GPT-5在代码应用能力排名首位，月之暗面的Kimi-K2-0905版本排名国内第一，国内模型在游戏开发、应用开发等项目级任务中，其在功能实现完整度与效果呈现方面，仍与国际先进水平存在一定差距。在大模型代码能力方面，推理模型能力较基础模型更具备优势，本轮测试的Top 5中，有4个为推理模型，仅有1个为基础模型。不同模型间代码理解能力整体差异不大，代码生成能力差异较为显著，大模型的代码注释、代码解释、代码生成能力依次减弱。

信通院发布“方升”3.0 体系及大模型基准测试结果

4.智能体应用能力测试结果：

智能体应用能力相比大模型可以完成更复杂任务，但在细分任务上仍不及预期。综合表现方面，高度封装的智能体产品通过融合基座模型、MCP服务、智能体沙箱等，可以获得比GPT-5、o3等单一大模型更好的性能表现。细分场景表现方面，智能体仍处于起始发展阶段，自主性不断增强，但能力仍有一定提升空间。智能体在网页交互和复杂信息挖掘等任务上表现相对较好，主要得益于当前网页浏览工具较为成熟、基座模型推理能力不断提升。然而，在多模态理解任务方面，智能体普遍表现欠佳，暴露出其在视频内容解析、图表语义理解等关键环节的技术短板，同时存在工具调用策略不合理、信息源整合能力不足等问题。

信通院发布“方升”3.0 体系及大模型基准测试结果

下一步，中国信息通信研究院将持续加强大模型评测技术研发与推广，提升大模型评测公信力和权威性，支撑人工智能前沿创新与新型工业化发展。一是聚焦技术突破，夯实评测底层能力。攻关自动化测试、缺陷分析及未来高级智能评测技术，推动评测向“智能驱动”跃升。二是强化能力建设，拓展多模态多场景覆盖。拓展文本、图像、语音、视频等多模态和多应用场景，打造一体化自动测试平台，实现全栈能力覆盖。三是深化生态运营，构建闭环服务体系。提供测试分析、选型评估、闭环优化等专业服务，推进国际合作与公益测试，构建开放协同、可持续的大模型评测生态。

AI时代下的挑战应用材料：能效是决胜关键

Google发表Gemini 3.1轻量版成本仅Pro版八分之一

M5 Pro与M5 Max MacBook Pro登场！两倍 SSD 速度、续航24小时效能再突破

效能怪兽M5 Max登场！6颗「超级核心」性能狂飙 30%

辉达力挺开源AI新创ReflectionAI 估值冲破200亿美元

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：2025 国庆档电影票房 18.35 亿收官，《志愿军：浴血和平》夺冠下一篇：工信部发布新能源新规插混车纯电续航不低于100公里

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板