0

0

最新!告别DeepSeek卡顿,直接提速11倍多

絕刀狂花

絕刀狂花

发布时间:2025-04-23 18:08:26

|

799人浏览过

|

来源于php中文网

原创

长文本处理的新突破:deepseek 的 nsa 原生稀疏注意力机制

最近,DeepSeek 在提升大语言模型处理长文本的能力上取得了重大进展。

传统模型在处理长篇小说或庞大代码库时,常因计算量巨大而出现卡顿。

DeepSeek 推出的 NSA(原生稀疏注意力机制)就像为模型配备了“智能滤网”,不仅能捕捉到关键信息,还大大减轻了计算负担,使速度提升了 11.6 倍。

一、问题:为何长文本处理如此费力?传统的注意力机制(Full Attention)要求模型在处理每个词时,都要与之前的所有词进行关联计算。

想象一下,如果一篇文章有 6 万个词,模型需要进行近 36 亿次计算!这种“全员参与”的模式虽然全面,但效率极低。特别是在实际应用中,解码一段长文本可能有 70%的时间用于注意力计算(图 1 右)。

最新!告别DeepSeek卡顿,直接提速11倍多▲ 图 1 | 左:NSA 在各项任务中的表现不逊于全注意力模型;右:处理 6.4 万长度文本时,NSA 解码速度提升 11.6 倍。▲ 图 1 | 左:NSA 在各项任务中的表现不逊于全注意力模型;右:处理 6.4 万长度文本时,NSA 解码速度提升 11.6 倍。

二、解决方案:模仿人类阅读的“抓重点”方式人类在阅读长文时会自然跳过不相关的段落,只关注关键部分。

NSA 模仿这一机制,设计了三层注意力筛选网络(图 2):

  1. 压缩层:将每 32 个词压缩成一个“段落梗概”2. 精选层:动态筛选出 64 个最重要的词块3. 滑动窗:始终关注最近的 512 个词,以防止漏掉局部信息最新!告别DeepSeek卡顿,直接提速11倍多▲ 图 2 | 三种注意力模式分工合作,绿色区域代表实际计算部分▲ 图 2 | 三种注意力模式分工合作,绿色区域代表实际计算部分

这种设计使得计算量大幅减少——原本需要处理 6 万个词,现在只需关注约 5 千个关键点,同时通过硬件级优化(如连续内存读取、Tensor Core 加速),让理论上的速度提升得以实现。

三、实际表现:速度与智能兼具的“双料冠军”DeepSeek 在 270 亿参数模型上进行了全面测试:

MOKI
MOKI

MOKI是美图推出的一款AI短片创作工具,旨在通过AI技术自动生成分镜图并转为视频素材。

下载

• 常规任务:在数学推理(GSM8K)、代码生成(HumanEval)等 9 项测试中,NSA 在 7 项中领先。• 长文本检索:在 6.4 万字的“大海捞针”测试中,NSA 实现了 100% 的准确率(图 5)最新!告别DeepSeek卡顿,直接提速11倍多▲ 图 5 | 64k 上下文长度的上下文位置上的“大海捞针”检索准确率▲ 图 5 | 64k 上下文长度的上下文位置上的“大海捞针”检索准确率

• 推理能力:经过专项训练后,NSA 在解决美国数学竞赛题的正确率上比传统模型高出 60%更重要的是速度优势:

• 训练提速:处理 6.4 万长度文本时,前向计算提速 9 倍,反向传播提速 6 倍• 解码飞跃:生成相同内容时,内存读取量减少 90%,实际响应速度提升 11.6 倍四、创新突破:从“事后补救”到“原生设计”现有方案多在模型训练完成后才启用稀疏计算,相当于给已建好的房子拆墙开窗。

而 NSA 从一开始就让模型学习如何高效分配注意力:

• 硬件对齐:像拼乐高一样设计计算模块,完美匹配 GPU 的 Tensor Core 特性• 动态学习:每个词块的筛选标准由模型自主调整,确保重要信息不会遗漏• 端到端训练:支持从预训练到微调的全流程,避免后期的“水土不服”五、应用前景:这项技术能做什么?试想以下场景:

• 程序员上传整个项目代码,AI 能在秒级内理解架构并生成新功能• 上传上百页的 PDF,AI 可以快速提取关键信息• 游戏 NPC 能够记住玩家上千条对话历史,并做出连贯反应NSA 已在这些方向上初步验证成功(表 2)

最新!告别DeepSeek卡顿,直接提速11倍多▲ 表 2 | NSA 与 LongBench 上的基线之间的性能比较▲ 表 2 | NSA 与 LongBench 上的基线之间的性能比较

未来,NSA 可能成为处理长文本的“标准配置”技术,让大模型真正突破上下文长度的限制。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

2

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

104

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

12

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

93

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

5

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

96

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

27

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

75

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
SQL 教程
SQL 教程

共61课时 | 3.6万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号