不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手
开源社区的一位开发者GeorgiGerganov发现,自己可以在M2Ultra上运行全F16精度的34BCodeLlama模型,而且推理速度超过了20token/s。M2Ultra的带宽达到了800GB/s,这在其他人通常需要使用4个高端GPU才能实现的情况下而这背后真正的答案是:投机采样(SpeculativeSampling)。乔治的发现立刻引发了人工智能界大佬们的讨论Karpathy转发评论道,「LLM的投机执行是一种出色的推理时间优化」。「投机采样」加速推理在这个例子中,Georgi借助
新标题:118mm高度小塔散热器利民AX90 SE ARGB现已上架,仅售99元,为用户带来更好的散热效果
IT之家消息,利民AX90SEARGB散热器已经上架,售价为99元IT之家之前报道称,利民去年推出了售价为89.9元的AX90SE无光版风冷散热器参数方面,利民AX90SEARGB风冷散热器高度118mm,重量360g,搭载4根6mmAGHPGEN4热管,可压DTPC功耗达165W。新款型号的风扇配备了支持RGB灯效的TL-P9-S性能级风扇,转速达到了2200RPM,噪音低于23.85dBA,风量达到32.77CFMAX90SEARGB风冷散热器在兼容性方面非常出色,它支持英特尔LGA115X
2023.09.19 12:57:03
2023年开放数据中心大会:发布超级聚变的FusionPoD for AI整机柜液冷服务器
2023年9月13日至14日,北京国际会议中心将举办由开放数据中心委员会(ODCC)主办的“2023开放数据中心大会”。届时,超聚变数字技术有限公司将推出适用于大规模、超大规模的模型训练、推理等人工智能场景的FusionPoDforAI整机柜液冷服务器FusionPoDforAI一套硬件支持多种GPU模组应用,单柜支持64GPU;水、电、网三总线盲插,即插即通,即拔即断。原生液冷架构下实现4U空间内CPU、GPU和交换的一体化高密集成,支持千瓦级芯片散热演进,液冷组件不泄露第三方可信认证基础上实
2023.09.19 10:13:08
24小时阅读排行榜
-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
热门专题
java连接字符串方法汇总
8
2026.02.05
java中fail含义
11
2026.02.05
控制反转和依赖注入区别
13
2026.02.05
钉钉脑图插图教程合集
27
2026.02.05
python截取字符串方法汇总
2
2026.02.05
Java截取字符串方法合集
1
2026.02.05
java 抽象方法
2
2026.02.05
Eclipse创建jsp文件教程合集
30
2026.02.05
java 字符串转数字
4
2026.02.05
java中jlabel的作用
2
2026.02.05
精选课程
PHP实战天龙八部之微信支付视频教程
共5课时 | 17.4万人学习
PHP实战天龙八部之仿爱奇艺电影网站
共49课时 | 77.9万人学习
前端入门_HTML5
共29课时 | 62.3万人学习
CSS视频教程-玉女心经版
共25课时 | 39.7万人学习
JavaScript极速入门_玉女心经系列
共43课时 | 73.6万人学习
独孤九贱(1)_HTML5视频教程
共25课时 | 62.2万人学习
独孤九贱(2)_CSS视频教程
共22课时 | 23.3万人学习
独孤九贱(3)_JavaScript视频教程
共28课时 | 34.4万人学习
独孤九贱(4)_PHP视频教程
共89课时 | 127万人学习
独孤九贱(5)_ThinkPHP5视频教程
共74课时 | 126.3万人学习
