0

0

对话|从背景到技术储备:深入解析建“十万卡集群”的必要性

蓮花仙者

蓮花仙者

发布时间:2025-01-08 19:15:31

|

1103人浏览过

|

来源于php中文网

原创

马斯克旗下xai公司122天内建成十万卡集群,凸显了算力集群对ai发展的关键作用。业内曾有说法:服务器集群规模越大,训练出的人工智能表现越优秀。 全球科技巨头纷纷加大对高性能ai计算集群的投入,以提升ai算法效率和能力。谷歌推出ai platform,结合gemini多模态生成式ai模型,显著增强了文本、图像、音频和视频处理能力;微软azure ai compute cluster整合最新ai技术,为开发者提供从数据处理到模型训练的全面支持。

百度作为国内较早推出大模型的企业,也展现了其强大的技术实力。11月6日,百度智能云举办的百舸媒体沙龙深入探讨了“十万卡集群”的技术创新、实施过程及对AI行业的影响,并邀请百度杰出系统架构师、百度AI计算部负责人王雁鹏进行分享。

以下为媒体与嘉宾的对谈实录(经编辑整理):

问:百舸的客户群体及成功案例?

答:客户主要分为两类:一类是大模型初创企业,他们需要万卡规模的计算能力,对快速建设和成本控制要求高,这类客户数量少但需求明确;另一类是典型的互联网客户,需求规模通常在千卡到5000卡之间,例如教育行业公司。这些互联网客户主要需求是利用自身数据进行后期训练(Post Train),以适应不同场景和优化,构建数据飞轮。目前,训练需求仍是主要业务,推理需求相对较少,这解释了业界对AI算力落地效果存疑的原因。预计今年或明年,算力需求仍将以训练为主,推理和SFT(小规模微调)的长尾客户会增多,但总体资源需求低于头部客户。

问:百舸客户的主要需求和痛点,以及解决方案?

答:客户需求存在共通之处:

  1. 基础设施层面: 客户需要强大的网络硬件互联架构。企业自行搭建大规模集群时常遇到网络难题,百舸提供更优的网络硬件互联架构,帮助客户成功搭建大规模计算集群。

  2. 系统稳定性: 缺乏经验的客户自行搭建系统时,有效训练时间往往过低。百舸帮助客户提升系统可靠性和有效训练时间,解决稳定性问题。

  3. 加速框架: 百舸帮助客户优化并行策略,提升性能,通过更优的框架显著提升计算速度。

  4. 资源利用率: 客户需要有效利用已购资源。百舸通过任务混合部署,提升资源利用率,确保资源高效利用。

    koly.club
    koly.club

    一站式社群管理工具

    下载

问:跨地域网络问题的实际效果?

答:跨网络问题涉及两个方面:十万卡规模部署需要跨地域支持;以及云服务能力。百舸可在云上两个机房同时部署计算任务,客户无感知差异。即使是5000卡规模,在不同地点分配资源,使用体验依然一致。

问:如何确保千卡到五千卡规模任务的混合调度效率?

答:百舸通过混合集群实现不同特征工作负载的混合。推理任务有波峰波谷,训练任务则需要固定数量计算卡。百舸提供灵活的队列机制,将业务视为虚拟队列,配置优先级策略,动态调整资源分配,并支持资源抢占和自动重新分配并行策略,确保任务连续性和有效性。

问:Checkpoint环节的策略?

答:传统的Checkpoint策略存在时间浪费问题。百舸采用以下策略:

  • 第一阶段:异步Checkpoint。 训练过程不中断,先将数据复制到内存,然后异步写入存储,缩短Checkpoint时间。

  • 第二阶段:触发式Checkpoint。 正常情况下不创建Checkpoint,只有在故障发生时才创建,在大多数情况下有效,避免资源浪费。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

对话|从背景到技术储备:深入解析建“十万卡集群”的必要性

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

404

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

431

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

308

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

cdn加速软件有哪些
cdn加速软件有哪些

CDN加速软件可以帮助网站提高内容访问速度和用户体验,降低服务器负载。在选择CDN加速软件时,需要根据实际需求和预算进行权衡,选择合适的软件和服务商。cdn加速软件有AWS CloudFront、Azure Content Delivery Network、Google Cloud CDN、Fastly、Cloudflare和Incapsula。

319

2023.10.19

系统架构有哪些种类
系统架构有哪些种类

系统架构种类有单库单应用架构、内容分发架构、读写分离架构、微服务架构、多级缓存架构、分库分表架构等。想了解更多系统架构的相关内容,可以阅读本专题下面的文章。

192

2023.11.14

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.3万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号