1月27日,国产gpu领域迎来重大进展——天数智芯正式发布其第四代gpu架构演进路线图,宣布将于2027年实现对英伟达rubin架构的全面超越。
据天数智芯AI与加速计算技术负责人单天逸在发布会上披露:2025年,天数“天枢”架构将超越NVIDIA Hopper架构(H200系列);2026年,“天璇”架构将对标Blackwell(B200);同年,“天玑”架构将实现对Blackwell的性能反超;2027年,“天权”架构将完成对Rubin架构的领先;此后,公司将迈入突破性计算芯片架构的全新探索阶段。

面对当前行业普遍存在的能效比偏低、算法适配性弱、落地部署复杂等挑战,单天逸指出,天数智芯正通过系统级架构优化,为客户打造更具性价比的TCO(总体拥有成本)方案,从容应对多样化、高复杂度的实际应用场景;通过高保真仿真建模能力,客户可在芯片部署前精准预估性能表现,真正达成“所见即所得”;同时,新一代架构具备高度可扩展性与前瞻性,能够平滑兼容从经典算法到尚未出现的下一代AI模型,保障长期投资价值。

发布会上,单天逸还详解了四代架构的核心技术亮点:
- “天枢”架构全面支持科学计算高精度与AI低精度混合负载,在处理注意力机制类运算时,实际算力有效利用率突破90%;
- “天璇”架构新增iXFp4稀疏量化精度支持,进一步释放边缘侧推理效能;
- “天玑”架构实现AI训练、推理及通用加速的全栈覆盖;
- “天权”架构则融合多层级精度体系与多项底层创新设计,为未来异构智能计算奠定基础。
具体到“天枢”架构,单天逸重点介绍了三大原创性技术突破:
TPC Broadcast(计算组广播机制)通过上游数据统一广播,显著减少重复内存访问,等效提升带宽并降低功耗;
Instruction Co-Exec(多指令协同执行系统)支持不同类型指令并行调度,大幅提升复杂任务吞吐能力;
Dynamic Warp Scheduling(动态线程组调度机制)可根据实时负载动态分配计算资源,避免硬件资源争抢,最大化计算单元利用率。

官方表示,上述技术创新使“天枢”架构的整体执行效率较当前业界平均水平提升达60%,并在DeepSeek V3典型场景中展现出比Hopper架构高出约20%的实际性能表现。
天数智芯董事长兼CEO盖鲁江在发布会上强调:AI算力的发展必须坚持全栈自研以夯实生态底座,秉持开放协作以定义产业新范式,坚守长期主义以共建可持续未来;天数智芯将持续携手上下游伙伴,推动自主通用GPU技术深度融入千行百业,加速国产智能算力生态的成熟与繁荣。

此次发布亦获得权威学术界高度关注。中国工程院院士刘韵洁亲临现场并发表致辞。
在他看来,高质量AI算力不应只追求单一指标的峰值性能,更需统筹“量”与“质”的双重跃升——既要突破关键节点性能瓶颈,也要强化软硬协同效率;既要服务核心云数据中心,也要延伸至网络边缘与终端设备,构建全域赋能能力;并充分肯定天数智芯多年来坚持自主创新路径、深耕生态共建所取得的扎实成果。












