0

0

单机训练200亿参数大模型:Cerebras打破新纪录

王林

王林

发布时间:2023-04-18 12:37:03

|

877人浏览过

|

来源于51CTO.COM

转载

本周,芯片创业公司 Cerebras 宣布了一个里程碑式的新进展:在单个计算设备中训练了超过百亿参数的 NLP(自然语言处理)人工智能模型。

由 Cerebras 训练的 AI 模型体量达到了前所未有的 200 亿参数,所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像 AI 生成模型——OpenAI 的 120 亿参数大模型 DALL-E。

Cerebras 新工作中最重要的一点是对基础设施和软件复杂性的要求降低了。这家公司提供的芯片 Wafer Scale Engine-2(WSE2)顾名思义,蚀刻在单个台积电 7 nm 制程的整块晶圆上,该面积通常足以容纳数百个主流芯片——具有惊人的 2.6 万亿个晶体管、85  万个 AI 计算内核和 40 GB 集成缓存,封装后功耗高达 15kW。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

单机训练200亿参数大模型:Cerebras打破新纪录

接近晶圆大小的 Wafer Scale Engine-2,面积比一个 iPad 还大。

虽然 Cerebras 的单机在体量上已经类似于超算了,但在单块芯片中保留多达 200 亿个参数的 NLP 模型仍然显著降低了数千个 GPU 的训练成本,以及相关的硬件和扩展要求,同时消除了在它们之间分割模型的技术困难。Cerebras 表示,后者是「NLP 工作负载中最痛苦的方面之一」,有时「需要几个月才能完成」。

这是一个定制化的问题,不仅对每个正在处理的神经网络,对于每个 GPU 的规格以及将它们联系在一起的网络都是独一无二的——这些元素必须在第一次训练开始之前提前设置好,而且也不能跨系统移植。

单机训练200亿参数大模型:Cerebras打破新纪录

Cerebras 的 CS-2 是一个独立的超级计算集群,其中包括 Wafer Scale Engine-2 芯片,所有相关的电源、内存和存储子系统。

200 亿的参数量大概是个什么水平?在人工智能领域里,大规模预训练模型是最近各家科技公司和机构正在努力发展的方向,OpenAI 的 GPT-3 是一种 NLP 模型,它可以写出足以欺骗人类读者的整篇文章、做数学运算和翻译,其具有惊人的 1750 亿个参数。DeepMind 的 Gopher 于去年年底推出,将参数量的纪录提高到 2800 亿。

最近一段时间,谷歌大脑甚至宣布训练了一个超过万亿参数的模型 Switch Transformer。

Cutout.Pro抠图
Cutout.Pro抠图

AI批量抠图去背景

下载

「在 NLP 领域中,体量更大的模型被证明效果更好。但传统上,只有极少数公司拥有足够的资源和专业知识来完成分解这些大型模型,将其分散到数百或数千个图形处理单元的艰苦工作,」Cerebras 首席执行官、联合创始人 Andrew Feldman 说道。「因此也只有极少数公司可以训练大型 NLP 模型——这对于行业的其他人来说太昂贵、太耗时且无法使用。」

现在,Cerebras 的方法能够降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的应用门槛,使整个 AI 生态系统能够在几分钟内建立大型模型,并在单个 CS-2 系统上训练它们 。

单机训练200亿参数大模型:Cerebras打破新纪录


然而,就像旗舰级 CPU 的时钟速度一样,参数量只是大模型性能的其中一项指标。最近,一些研究在减少参数的前提下已经取得了更好的结果,例如 DeepMind 今年 4 月提出的 Chinchilla,只用 700 亿个参数就在常规情况下超过了 GPT-3 和 Gopher。

这类研究的目标当然是更智能的工作,而不是更努力地工作。因此 Cerebras 的成就比人们第一眼看到的更为重要——该研究让我们相信现有的芯片制程水平能够适应日益复杂的模型,该公司表示,以特殊芯片为核心的系统具备了支撑「数千亿甚至数万亿参数」模型的能力。

在单芯片上可训练参数量的爆炸式增长需要依赖 Cerebras 的 Weight Streaming 技术。该技术可以将计算和内存占用分离,根据 AI 工作负载中快速增长的参数量,允许内存进行任意量级的扩展。这使得设置时间从几个月减少到几分钟,并且可以在 GPT-J 和 GPT-Neo 等型号之间切换。正如研究者所说:「只需要敲几次键盘。」

「Cerebras 以低成本、便捷的方式向人们提供了运行大型语言模型的能力,开启了人工智能令人兴奋的新时代。它为那些不能花费数千万美元的组织提供了一个简单而廉价的,参与到大模型竞争之中的方式,」Intersect360 研究公司的首席研究官 Dan Olds 说道。「当 CS-2 客户在大量数据集上训练 GPT-3 和 GPT-J 级模型时,我们非常期待 CS-2 客户的新应用和新发现。」

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

63

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

70

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

67

2026.01.31

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

19

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号