0

0

Omni-Infer v0.7.0 已经发布,超大规模 MoE 模型推理加速技术

聖光之護

聖光之護

发布时间:2025-12-12 17:43:01

|

848人浏览过

|

来源于php中文网

原创

omni-infer v0.7.0 已经发布,超大规模 moe 模型推理加速技术

Omni-Infer v0.7.0 正式上线,带来面向超大规模混合专家(MoE)模型的高效推理加速能力。

v0.7.0

核心亮点

  • Omni Cache 新增对 MLA(Multi-Head Latent Attention)与 GQA(Grouped-Query Attention)架构的支持
  • 引入 chunk prefill 混合调度机制,实现更优的计算图融合与内存复用
  • 全面兼容 SGLang 接口协议,提升复杂推理流程的灵活性与易用性

性能提升

  • 在 2P8-1D32@A3 硬件配置下,支持 3.5K+1K 输入长度场景,Deepseek R1 实测 QPM 达 186,首字延迟(TTFT)显著优化
  • 在 2P2-1D4@A3 配置下,openPangu-72B 单卡解码吞吐峰值达 1560 TPS,平均单 Token 延迟(TPOT)表现优异

已验证模型清单

模型 硬件平台 量化精度 部署模式
openPangu-Ultra-MoE-718B A3 INT8 PD分离
openPangu-Ultra-MoE-718B A2 INT8 PD分离
openPangu-72B A3 INT8 PD分离
openPangu-38B A3 INT8 混布
openPangu-38B A2 INT8 混布
openPangu-7B A3 BF16 混布
openPangu-7B A2 BF16 混布
openPangu-7BVL A3 BF16 混布
DeepSeek-R1 A3 INT8 PD分离
DeepSeek-R1 A3 W4A8C16 PD分离
DeepSeek-R1 A3 BF16 PD分离
DeepSeek-R1 A2 INT8 PD分离
DeepSeek-V3.1 A3 INT8 PD分离
DeepSeek-V3.2 A3 INT8 PD分离
DeepSeek-OCR A2 BF16 混布
Qwen2.5-7B A3 INT8 混布(TP>=1 DP=1)
Qwen2.5-7B A2 INT8 混布(TP>=1 DP=1)
QwQ A3 BF16 PD分离
QwQ A2 BF16 PD分离
Qwen3-235B A3 INT8 PD分离
Qwen3-235B A2 BF16 PD分离
Qwen3-32B A3 BF16 PD分离
Qwen3-32B A3 INT8 PD分离
Qwen3-30B A3 BF16 PD分离
Kimi-K2 A3 W4A8C16 PD分离
Kimi-K2 Thinking A3 W4A8C16 PD分离
Longcat-flash A3 BF16 PD分离
Ling-1T A3 BF16 PD分离
GPT-OSS120B A3 INT8 PD分离
GPT-OSS120B A2 INT8 PD分离
GPT-OSS20B A3 INT8 PD分离
GPT-OSS20B A2 INT8 PD分离

安装方式

硬件平台 CPU架构 Docker镜像地址 Tar包名称
A3 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-arm:release\_v0.7.0-vllm omni\_infer-a3-arm:v0.7.0\_vllm
A3 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a3-x86:release\_v0.7.0-vllm omni\_infer-a3-x86:v0.7.0\_vllm
A2 arm docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-arm:release\_v0.7.0-vllm omni\_infer-a2-arm:v0.7.0\_vllm
A2 x86 docker pull swr.cn-east-4.myhuaweicloud.com/omni/omniinfer-a2-x86:release\_v0.7.0-vllm omni\_infer-a2-x86:v0.7.0\_vllm

更多详情请参阅:https://www.php.cn/link/9f78e8aa1530b26c85f555017d89e745

AdMaker AI
AdMaker AI

从0到爆款高转化AI广告生成器

下载

源码获取:点击下载

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6087

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

805

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1233

2024.03.01

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1020

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

63

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

414

2025.12.29

k8s和docker区别
k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

249

2023.07.24

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.7万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号