0

0

DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈?

蓮花仙者

蓮花仙者

发布时间:2025-04-23 16:34:16

|

436人浏览过

|

来源于php中文网

原创

《深探deepseek原理应用与实践》

15.DeepSeek-V3/R1架构设计思路

在开源周的最后一天,DeepSeek分享了DeepSeek-V3/R1的架构设计思路,让大家能够更系统、更全面地了解其推理系统的设计过程,以及更深入地理解之前开源的6个项目。

DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈?DeepSeek-V3/R1推理系统的核心目标是什么?

通过软件架构的优化,达到:

  1. 更高的吞吐量;
  2. 更低的延时;

为什么DeepSeek选择了这条路?

曾经AI技术发展的瓶颈在于GPU。

当GPU成为瓶颈时,有两条路可走:

其一,水平扩展scale out:囤卡,堆GPU; 其二,垂直扩展scale up:GPU升级换代;

但这两条路都被牢牢控制在国外手中。

囤卡受限,不允许你囤积。 先进的卡不卖给你,因为你落后五年。

为了突破瓶颈,DeepSeek被迫走上了第三条路:通过软件优化架构。

为了实现目标,DeepSeek的核心方案是什么?

大规模的跨节点专家并行EP,Expert Parallelism。

通过增加专家并行EP的数量(batch size),提升GPU矩阵乘法的效率,从而提高吞吐量;同时,多个专家分散在不同的GPU上,每个GPU只需计算更少的专家,访问更少的数据,从而降低延迟。

大规模的跨节点专家并行EP会给软件架构带来哪些新的挑战?

  1. EP跨节点传输,需要解决传输与计算并行的问题;
  2. EP多节点联动,需要解决数据分发汇总、负载均衡等问题;

大规模的跨节点专家并行EP的部署与策略是怎样的?

由于V3/R1的专家数量众多,并且每层256个专家中仅激活其中8个,DeepSeek采用多机多卡间的专家并行策略来达到以下目的:

预填充阶段:路由专家EP-32、MLA和共享专家DP-32,一个部署单元是4节点,32个冗余路由专家,每张卡9个路由专家和1个共享专家; 解码阶段:路由专家EP-144、MLA和共享专家DP-144,一个部署单元是18节点,32个冗余路由专家,每张卡2个路由专家和1个共享专家; 这两个阶段的负载均衡策略各不相同。

如何解决计算与传输并行的问题?

多机多卡的专家并行会引入较大的通信开销,因此DeepSeek使用双向通道,提高整体吞吐量。

DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈?预填充阶段:计算和通信交替进行,一个通道计算时,另一个通道通信。

Cardify卡片工坊
Cardify卡片工坊

使用Markdown一键生成精美的小红书知识卡片

下载

DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈?解码阶段类似:计算与通信交替进行,通过流水线实现计算和通信的重叠。

如何最大程度地实现负载均衡?

由于采用了大规模的数据并行与专家并行,如果某个GPU的计算或通信负载过重,单个长尾将成为整个系统的瓶颈。与此同时,其他GPU因为等待而空转,造成整体资源利用率下降。因此,必须尽可能地为每个GPU平均分配计算负载和通信负载。

预填充阶段(prefilling stage):

  1. 专家组分配到节点,保证节点负载均衡;
  2. 节点内复制专家;
  3. 专家分配到GPUs,保证GPUs负载均衡;

解码阶段(decoding stage):

  1. 全局复制专家,不管专家在哪个组;
  2. 专家分配到GPUs,保证GPUs负载均衡;

总而言之,保证负载均衡,充分发挥GPUs的潜力,提升训练效率,缩短训练时间。

其整体架构如下:

DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈?V3/R1的所有GPU均使用H800 GPU:

  1. 矩阵计算,分发:采用FP8格式;
  2. 核心注意力计算,合并:采用BF16格式;

同时兼顾效率与质量。

另外,由于白天的服务负荷高,晚上的服务负荷低,因此DeepSeek实现了一套机制:

  1. 在白天负荷高的时候,所有节点部署推理服务;
  2. 晚上负荷低的时候,减少推理节点,以用来做研究和训练;

综上所述,如果所有tokens全部按照R1的定价计算,理论上DeepSeek一天的总收入为$562,027,成本利润率545%。

到这里,DeepSeek开源周的所有7个项目就介绍完了,最后再来个汇总:

  1. FlashMLA:GPU告诉解码器
  2. DeepEP:MOE与EP通讯库
  3. DeepGEMM:FP8通用矩阵乘法库
  4. DualPipe:双向管道并行算法
  5. EPLB:EP动态负载均衡算法
  6. 3FS:高性能分布式文件系统
  7. 《V3/R1架构设计思路(本文)》

补充阅读材料:

https://www.php.cn/link/2ac5f9cb8a8e89382c2fc21937c21ae6

官方git,可参考。

==全文完==

相关文章

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

251

2023.10.07

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

447

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4363

2026.01.21

自建git服务器
自建git服务器

git服务器是目前流行的分布式版本控制系统之一,可以让多人协同开发同一个项目。本专题为大家提供自建git服务器相关的各种文章、以及下载和课程。

999

2023.07.05

git和svn的区别
git和svn的区别

git和svn的区别:1、定义不同;2、模型类型不同;3、存储单元不同;4、是否拥有全局版本号;5、内容完整性不同;6、版本库不同;7、克隆目录速度不同;8、分支不同。php中文网为大家带来了git和svn的相关知识、以及相关文章等内容。

582

2023.07.06

git撤销提交的commit
git撤销提交的commit

Git是一个强大的版本控制系统,它提供了很多功能帮助开发人员有效地管理和控制代码的变更,本专题为大家提供git 撤销提交的commit相关的各种文章内容,供大家免费下载体验。

275

2023.07.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 94人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号