英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

王林

发布时间：2024-06-03 21:04:01

508人浏览过

来源于51CTO.COM

转载

无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现，包括GPT-4在内的10个大模型，生成达到128k甚至1M上下文长度的都有。

但一番考验下来，在新指标“有效上下文”上缩水严重，能达到32K的都不多。

新基准名为RULER，包含检索、多跳追踪、聚合、问答四大类共13项任务。RULER定义了“有效上下文长度”，即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项研究被学者评价为“非常有洞察力”。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

不少网友看到这项新研究后，也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。（论文中并未覆盖）

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

一起来看英伟达是如何定义“有效上下文”指标的。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

测试任务更多、更难

要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法，一句话概括就是“确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力”。

RULER的评测数据减少了对“参数化知识”的依赖，也就是大模型在训练过程中已经编码到自身参数里的知识。

具体来说，RULER基准扩展了流行的“大海捞针”测试，新增四大类任务。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

检索方面，从大海捞针标准的单针检索任务出发，又加入了如下新类型：

多针检索（Multi-keys NIAH, MK-NIAH）：上下文中插入多个干扰针，模型需检索指定的那一个
多值检索（Multi-values NIAH, MV-NIAH）：一个键（key）对应多个值（values），模型需要检索出与特定键关联的所有值。
多查询检索（Multi-queries NIAH, MQ-NIAH）：模型需根据多个查询在文本中检索出相应的多个针。

除了升级版检索，RULER还增加了多跳追踪（Multi-hop Tracing）挑战。

具体来说，研究人员提出了变量追踪（VT），模拟了指代消解（coreference resolution）的最小任务，要求模型追踪文本中变量的赋值链，即使这些赋值在文本中是非连续的。

挑战第三关是聚合（Aggregation），包括：

常见词汇提取（Common Words Extraction, CWE）：模型需要从文本中提取出现次数最多的常见词汇。
频繁词汇提取（Frequent Words Extraction, FWE）：与CWE类似，但是词汇的出现频率是根据其在词汇表中的排名和Zeta分布参数α来确定的。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

挑战第四关是问答任务（QA），在现有阅读理解数据集（如SQuAD）的基础上，插入大量干扰段落，考查长序列QA能力。

智川X-Agent

中科闻歌推出的一站式AI智能体开发平台

下载

各模型上下文实际有多长？

实验阶段，如开头所述，研究人员评测了10个声称支持长上下文的语言模型，包括GPT-4，以及9个开源模型开源模型Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

这些模型参数规模范围从6B到采用MoE架构的8x7B不等，最大上下文长度从32K到1M不等。

在RULER基准测试中，对每个模型评测了13个不同的任务，覆盖4个任务类别，难度简单到复杂的都有。对每项任务，生成500个测试样例，输入长度从4K-128K共6个等级（4K、8K、16K、32K、64K、128K）。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

为了防止模型拒绝回答问题，输入被附加了answer prefix，并基于recall-based准确性来检查目标输出的存在。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

研究人员还定义了“有效上下文长度”指标，即模型在该长度下能保持与基线Llama-7B在4K长度时的同等性能水平。

为了更细致的模型比较，使用了加权平均分数（Weighted Average, wAvg）作为综合指标，对不同长度下的性能进行加权平均。采用了两种加权方案：

wAvg(inc)：权重随长度线性增加，模拟以长序列为主的应用场景
wAvg(dec):权重随长度线性减小，模拟以短序列为主的场景

来看结果。

普通大海捞针和密码检索测试看不出差距，几乎所有模型在其声称的上下文长度范围内均取得满分。

而使用RULER，尽管很多模型声称能够处理32K token或更长的上下文，但除了Mixtral外，没有模型在其声称的长度上保持超过Llama2-7B基线的性能。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

其他结果如下，总的来说，GPT-4在4K长度下表现最佳，并且在上下文扩展到128K时显示出最小的性能下降（15.4%）。

开源模型中排名前三的是Command-R、Yi-34B和Mixtral，它们都使用了较大的基频RoPE，并且比其它模型具有更多的参数。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

此外，研究人员还对Yi-34B-200K模型在增加输入长度（高达256K）和更复杂任务上的表现进行了深入分析，以理解任务配置和失败模式对RULER的影响。

他们还分析了训练上下文长度、模型大小和架构对模型性能的影响，发现更大的上下文训练通常会带来更好的性能，但对长序列的排名可能不一致；模型大小的增加对长上下文建模有显著好处；非Transformer架构（如RWKV和Mamba）在RULER上的表现显著落后于基于Transformer的Llama2-7B。

更多细节，感兴趣的家银们可以查看原论文。

论文链接：https://arxiv.org/abs/2404.06654

Workbuddy如何在飞书群里使用_Workbuddy飞书群机器人配置说明【教程】

Perplexity与ChatGPT有什么区别_Perplexity核心能力介绍【介绍】

ChatGPT学习编程怎么提问更高效_提示方法是什么【汇总】

ChatGPT回答太简短怎么办_ChatGPT生成更详细内容的方法【技巧】

Autogen如何实现自动任务执行_Autogen任务自动化方法【教程】

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6607

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

842

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2142

2024.03.01

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2907

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板