DGX Spark是专为本地大模型开发设计的桌面AI节点,150×150×50.5 mm/1.2 kg,搭载1 PFLOP(FP4稀疏)算力、128GB LPDDR5x统一内存、20核Arm CPU+Blackwell GPU,原生支持200B模型推理,双QSFP112光口支持RoCEv2 RDMA组集群。

DGX Spark确实把“小体积+强AI”这件事做实了——150×150×50.5 mm的机身,1.2 kg重量,放在办公桌角落几乎不占地方,但背后是1 PFLOP(FP4稀疏)算力、128GB统一内存、20核Arm CPU + Blackwell GPU的完整SoC架构。它不是简化版服务器,也不是游戏显卡改的玩具,而是专为本地大模型开发重新定义的桌面AI节点。
真正能跑200B模型的桌面设备
很多标称“支持大模型”的设备,实际运行时频繁OOM或靠量化硬扛。DGX Spark靠三样东西稳住局面:
- 128GB LPDDR5x统一内存:CPU和GPU共享同一地址空间,避免数据反复拷贝;FP4格式下可原生加载200B参数模型(如DeepSeek-V2、Qwen2.5-200B),推理时无需降精度牺牲效果
- NVLink-C2C 600GB/s互联:比PCIe 5.0快5倍,让CPU预处理和GPU计算真正并行,Prefill阶段吞吐明显高于同级PCIe直连方案
- Blackwell GPU的第5代Tensor Core:对vLLM、SGLang等主流推理框架原生优化,实测Ollama+DGX Spark组合下,200B模型Decode速度可达1800 tokens/s(单机)
不只是单机,更是可扩展的AI节点
它没把自己锁死在“一台电脑”的定位里。背后两个QSFP112光口直连ConnectX-7智能网卡,支持RoCEv2 RDMA,延迟仅1–2微秒:
- 两台DGX Spark用一根光纤直连,就能组成400B级模型训练/推理集群,无需额外交换机
- 通过NVIDIA Brev注册后,可被远程调用为安全计算资源,敏感数据不出本地,通用任务调度上云
- 接口设计明确区分角色:3个全功能USB-C(支持DP 4K@120Hz)、HDMI 2.1a、10G以太网,兼顾本地开发与网络部署
开箱即用,但生态兼容需留意
预装DGX操作系统、NeMo、vLLM容器和Docker工具链,接电开机就能跑模型。不过要注意几点现实细节:
- GB10芯片是定制版Blackwell,部分CUDA应用需确认是否适配sm121架构(非标准sm90/sm110),某些老框架可能回落到Ampere路径运行
- LPDDR5x带宽(273GB/s)虽高,但不如GDDR7,对极度带宽敏感的CV类训练任务不如H200/B200平台
- 4TB PCIe 5.0 M.2 SSD够用,但模型权重缓存和日志增长快的场景建议外挂高速NAS
适合谁,不适合谁
它不是替代DGX H200的集群方案,而是填补中间空白:
- 适合:高校实验室做LLM微调、医疗AI团队本地验证临床模型、机器人公司部署边缘感知大模型、独立开发者构建私有编码助手
- 慎选:需要多卡NVLink拓扑的HPC仿真、依赖特定CUDA库(如旧版cuBLAS)的金融建模、长期满载7×24运行的生产服务(散热与持续负载能力弱于机架式)










