0

0

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

絕刀狂花

絕刀狂花

发布时间:2025-10-22 13:28:01

|

844人浏览过

|

来源于php中文网

原创

deepseek v4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

7 月 30 日,ACL(国际计算语言学年会)揭晓了 2025 年度获奖论文名单。令人瞩目的是,中国作者在这些论文中的占比突破 51%,远超美国的 14%,彰显出中国在自然语言处理领域的强劲势头。

其中,由 DeepSeek 创始人梁文锋担任通讯作者、联合北京大学等机构完成的一篇论文不仅斩获 Best Paper 大奖,其技术成果也迅速引发广泛关注。

在会议现场分享环节,论文第一作者袁境阳透露,该研究成功将模型上下文长度扩展至惊人的 100 万 tokens,并计划集成到 DeepSeek 即将推出的下一代前沿模型中。值得一提的是,袁境阳在撰写这篇论文时仍为 DeepSeek 的实习生身份。

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

突破长文本瓶颈:NSA 机制横空出世

当前,长上下文建模被视为推动大模型进化的关键路径,但传统注意力机制因计算复杂度随序列增长呈平方级上升,导致推理延迟严重。理论分析显示,在处理 64k 长度上下文时,softmax 注意力运算可占据整体延迟的 70% 至 80%,凸显出对高效替代方案的迫切需求。

为此,团队提出 NSA(Natively trainable Sparse Attention),一种原生可训练的稀疏注意力架构。该机制融合算法创新与硬件协同设计,旨在实现高性能且高效的长序列建模。

NSA 采用动态分层稀疏策略,结合粗粒度 token 压缩与细粒度 token 选择,在保障全局语义感知的同时保留局部细节精度,有效应对长文本中的信息密度不均问题。

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

双重技术创新驱动性能飞跃

NSA 的核心突破体现在两大方面:

一是通过算术强度均衡的算法设计显著提升运行效率,并针对现代 GPU 架构进行底层优化。其改进的块式稀疏注意力结构提高了张量核心利用率和内存访问效率,确保计算负载均衡;同时配备高效的反向传播算子,支持稳定端到端训练,大幅降低预训练所需算力。

二是实现了真正意义上的硬件友好型稀疏化。无论是预填充阶段还是自回归解码过程,NSA 都能充分利用硬件并行能力,缓解内存带宽压力和调度开销,从而将理论上的计算节省转化为实际的速度增益。

实测表现惊艳:准确率“拉满”,速度飙升十余倍

研究团队在一个参数总量达 270 亿(激活参数约 30 亿)的 Transformer 主干网络上,使用 2600 亿 token 数据完成预训练,并从通用语言理解、长文本任务及思维链推理三个维度全面评估 NSA 性能。

实验结果显示,NSA 在多数指标上优于全注意力基线模型。在九项评测任务中,有七项取得领先成绩。尤其在涉及复杂推理的场景下,优势更为明显:多跳问答 HPQ 和 2Wiki 分别提升 0.087 和 0.051;代码理解 LCC 超出基线 0.069;段落检索 PassR-en 提升 0.075。

更引人注目的是,在 64k 上下文下的“大海捞针”测试中,NSA 实现了100% 的精准定位能力,展现出卓越的信息保持与检索性能。

Vinteo AI
Vinteo AI

利用人工智能在逼真的室内环境中创建产品可视化。无需设计师和产品照片拍摄

下载

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

此外,NSA 在速度方面实现跨越式进步。与基于 Triton 实现的 FlashAttention-2 相比,在 A100 多卡系统中:

  • 前向传播速度最高提升 9.0 倍
  • 反向传播提速达 6.0 倍
  • 解码延迟在 64k 长度下降低高达 11.6 倍

且随着序列增长,加速效果愈发显著,体现出强大的可扩展性。

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

为进一步验证其下游任务适配能力,团队还开展了强化版数学推理训练实验。通过知识蒸馏方式,利用 DeepSeek-R1 的 32k 长度推理轨迹对 NSA 模型进行监督微调,构建出 NSA-R 模型,并与全注意力版本对比。

在极具挑战性的 AIME 24 数学竞赛基准测试中,NSA-R 在 8k 与 16k 上下文长度下均超越全注意力模型,证明其不仅能维持深度推理所需的上下文连贯性,还能避免因稀疏化导致的知识遗忘。

这表明,NSA 的原生稀疏训练机制有助于模型自动学习最优注意力路径,在复杂逻辑推导任务中具备更强潜力。

DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提 10 倍、要“完美”准确率

尽管该论文早在今年 2 月便已公开(arXiv:2502.11089),但截至目前,NSA 技术尚未出现在任何已发布的 DeepSeek 模型中。不过据袁境阳透露,这项技术将被应用于 DeepSeek 下一代主力模型,极大激发外界对 DeepSeek V4 的期待。

与此同时,关于 DeepSeek R2 是否会推迟发布的消息也在业内持续发酵。此前曾有传闻称该模型已在 Hugging Face 泄露,引发热议。虽官方未予回应,但有消息称,由于创始人梁文锋对当前性能尚不满意,研发团队仍在持续打磨。

也有观点认为,R2 或将等待 V4 发布后再正式推出——毕竟 V3 可能已触及现有架构的极限,而 NSA 所代表的新一代核心技术,或将彻底重塑 DeepSeek 的产品路线图。

参考链接:
https://www.php.cn/link/42751fb669b1fe8b899c5a70deb061d8

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6097

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

808

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1259

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1994

2024.08.16

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

0

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

85

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
编程学习方法分享
编程学习方法分享

共5课时 | 2.4万人学习

10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号