0

0

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

爱谁谁

爱谁谁

发布时间:2025-04-22 12:30:23

|

752人浏览过

|

来源于php中文网

原创

中国人工智能初创企业 deepseek 在 2024 年 12 月 26 日推出了一款新的超大规模模型:deepseek-v3。

根据公司的许可协议,新模型可通过Hugging Face获取,拥有 671B 个参数,但采用混合专家架构,仅激活选定的参数以高效准确地处理任务。DeepSeek 分享的基准测试显示,该产品已位居前列,超越了包括Meta 的 Llama 3.1-405B在内的领先开源模型,并与 Anthropic 和 OpenAI 的闭源模型性能非常接近。

此次发布标志着闭源 AI 与开源 AI 之间的差距再次显著缩小。DeepSeek 起初是中国量化对冲基金High-Flyer Capital Management的一个分支,期望这些进展能为通用人工智能 (AGI) 铺平道路,通用人工智能的模型将具备理解或学习人类能够完成的任何智力任务的能力。

DeepSeek-V3 带来了哪些新功能?与前代 DeepSeek-V2 一样,新的超大规模模型采用相同的基本架构,围绕多头潜在注意力 (MLA)DeepSeekMoE。这种方法确保了高效的训练和推理——每个 token 激活 671B 中的 37B 个参数,由专门和共享的“专家”(大型模型内独立的、较小的神经网络)处理。

在基本架构确保 DeepSeek-V3 强劲性能的同时,公司还推出了两项创新,以进一步提升标准。

第一项是辅助无损负载平衡策略。该策略动态监控和调整专家的负载,以平衡的方式利用它们,而不损害整体模型性能。第二项是多token预测 (MTP),它允许模型同时预测多个未来token。这项创新不仅提高了训练效率,还使模型的执行速度提高了三倍,每秒生成 60 个token。

公司在介绍新模型的技术论文中写道:“在预训练期间,我们用 14.8T 高质量、多样化的 token 训练了 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了上下文长度的两阶段扩展。” “在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。此后,我们在 DeepSeek-V3 的基础模型上进行了后训练,包括监督微调 (SFT) 和强化学习 (RL),以使其与人类偏好保持一致并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1 系列模型中提取推理能力,同时小心地保持模型准确率和生成长度之间的平衡。”

值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于流水线并行的 DualPipe 算法,以降低流程成本。

总体而言,公司声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的全部训练,假设每 GPU 小时的租赁价格为 2 美元,则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。

以 Llama-3.1 为例,预计其培训投资已超过 5 亿美元。

绘蛙
绘蛙

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

尽管训练成本低廉,DeepSeek-V3 已成为市场上最强大的开源模型。

公司运行了多个基准测试来比较 AI 的性能,并指出它的表现令人信服地优于领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中都优于闭源GPT-4o,除了以英语为中心的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的得分领先(而后者为 24.9 和 73.3)。

值得注意的是,DeepSeek-V3 在中文和数学基准测试中表现尤为突出,得分高于所有同类产品。在 Math-500 测试中,它的得分为 90.2,其次是 Qwen 的 80 分。

唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中均以更高的分数超越了 DeepSeek-V3。

这项研究表明,开源模型正在接近闭源模型,有望在不同任务上实现几乎相同的性能。此类系统的开发对行业来说非常有利,因为它有可能消除一家大型人工智能公司统治游戏的可能性。它还为企业在编排堆栈时提供了多种选择和使用方式。

目前,DeepSeek-V3 的代码可通过GitHub在 MIT 许可下获得,而模型则根据公司的模型许可提供。企业还可以通过类似 ChatGPT 的平台DeepSeek Chat测试新模型,并访问 API 以供商业使用。DeepSeek 提供的 API 价格与 DeepSeek-V2 相同,直到 2 月 8 日。此后,它将收取每百万输入token 0.27 美元(缓存命中时每百万 token 0.07 美元)和每百万输出 token 1.10 美元的费用。

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

768

2023.08.22

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6110

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1064

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1296

2024.03.01

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

574

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

394

2023.07.18

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号