讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

王林

发布时间：2023-09-10 16:41:01

|

1641人浏览过

|

来源于51CTO.COM

转载

「GPU贫民」即将告别困境！

刚刚，英伟达发布了一款名为TensorRT-LLM的开源软件，可以加速在H100上运行的大型语言模型的推理过程

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

那么，具体能提升多少倍？

在添加了TensorRT-LLM及其一系列优化功能后（包括In-Flight批处理），模型总吞吐量提升8倍。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

使用和不使用TensorRT-LLM的GPT-J-6B A100与H100的比较

另外，以Llama 2为例，相比独立使用A100，TensorRT-LLM能够将推理性能提升4.6倍

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

对比Llama 2 70B、A100和H100在使用和不使用TensorRT-LLM的情况下的比较

网友表示，超强H100，再结合上TensorRT-LLM，无疑将彻底改变大型语言模型推理现状！

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

TensorRT-LLM：大模型推理加速神器

当前，由于大模型有着巨大的参数规模，使得「部署和推理」难度和成本一直居高不下。

英伟达开发的TensorRT-LLM旨在通过GPU来显著提高LLM的吞吐量，并降低成本

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

具体而言，TensorRT-LLM将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理以及多GPU/多节点通信封装在一个简单的开源Python API中

英伟达对FasterTransformer进行了进一步的增强，使其成为一个产品化的解决方案。

可见，TensorRT-LLM提供了一个易用、开源和模块化的Python应用编程接口。

不需要深入了解C++或CUDA专业知识的码农们，可以部署、运行和调试各种大型语言模型，并且能够获得卓越的性能表现，以及快速定制化的功能

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

根据英伟达官方博客的报道，TensorRT-LLM采用了四种方法来提升Nvidia GPU上的LLM推理性能

首先，为当前10+大模型，引入TensorRT-LLM，让开发者们能够立即运行。

其次，TensorRT-LLM作为一个开源软件库，允许LLM在多个GPU和多个GPU服务器上同时进行推理。

这些服务器分别通过，英伟达的NVLink和InfiniBand互连连接。

第三点是关于「机内批处理」，这是一项全新的调度技术，它允许不同模型的任务独立于其他任务进入和退出GPU

最后，TensorRT-LLM经过优化，可以利用H100 Transformer Engine来降低模型推理时的内存占用和延迟。

下面我们来详细看一下TensorRT-LLM是如何提升模型性能的

支持丰富LLM生态

TensorRT-LLM为开源模型生态提供了出色的支持

需要重写的内容是：具有最大规模和最先进的语言模型，例如Meta推出的Llama 2-70B，需要多个GPU协同工作才能实时提供响应

以前，要实现LLM推理的最佳性能，开发人员必须手动重写AI模型，并将其分解成多个片段，然后在GPU之间进行协调执行

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

TensorRT-LLM使用张量并行技术，将权重矩阵分配到各个设备上，从而简化了这一过程，可以实现大规模高效推理

每个模型可以在通过NVLink连接的多个GPU和多个服务器上并行运行，无需开发人员干预或模型更改。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

随着新模型和模型架构的推出，开发人员可以使用TensorRT-LLM中开源的最新NVIDIA AI内核（Kernal）来优化模型

需要进行改写的内容是：支持的内核融合（Kernal Fusion）包括最新的FlashAttention实现，以及用于GPT模型执行的上下文和生成阶段的掩码多头注意力等

此外，TensorRT-LLM还包括了目前流行的许多大语言模型的完全优化、可立即运行的版本。

这些模型包括Meta Llama 2、OpenAI GPT-2和GPT-3、Falcon、Mosaic MPT、BLOOM等十多个。所有这些模型都可以使用简单易用的TensorRT-LLM Python API来调用

这些功能可帮助开发人员更快、更准确地搭建定制化的大语言模型，以满足各行各业的不同需求。

In-flight批处理

现如今大型语言模型的用途极其广泛。

一个模型可以同时用于多种看起来完全不同的任务——从聊天机器人中的简单问答响应，到文档摘要或长代码块的生成，工作负载是高度动态的，输出大小需要满足不同数量级任务的需求。

任务的多样性可能会导致难以有效地批处理请求和进行高效并行执行，可能会导致某些请求比其他请求更早完成。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

为了管理这些动态负载，TensorRT-LLM包含一种称为「In-flight批处理」的优化调度技术。

大语言模型的核心原理在于，整个文本生成过程可以通过模型的多次迭代来实现

通过in flight批处理，TensorRT-LLM运行时会立即从批处理中释放出已完成的序列，而不是等待整个批处理完成后再继续处理下一组请求。

在执行新请求时，上一批还未完成的其他请求仍在处理中。

通过进行机上批处理和进行额外的内核级优化，可以提高GPU的利用率，从而使得H100上LLM的实际请求基准的吞吐量至少增加一倍

使用FP 8的 H100 Transformer引擎

TensorRT-LLM还提供了一个名为H100 Transformer Engine的功能，能有效降低大模型推理时的内存消耗和延迟。

因为LLM包含数十亿个模型权重和激活函数，通常用FP16或BF16值进行训练和表示，每个值占用16位内存。

然而，在推理时，大多数模型可以使用量化（Quantization）技术以较低精度有效表示，例如8位甚至4位整数（INT8或 INT4）。

量化（Quantization）是在不牺牲准确性的情况下降低模型权重和激活精度的过程。使用较低的精度意味着每个参数较小，并且模型在GPU内存中占用的空间较小。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

这样做可以使用相同的硬件对更大的模型进行推理，同时在执行过程中减少在内存操作上的时间消耗

通过H100 Transformer Engine技术，配合TensorRT-LLM的H100 GPU使户能够轻松地将模型权重转换为新的FP8格式，并能自动编译模型以利用优化后的FP8内核。

而且这个过程不需要任何的代码！H100引入的FP8数据格式使开发人员能够量化他们的模型并从大幅度减少内存消耗，而且不会降低模型的准确性。

与INT8或INT4等其他数据格式相比，FP8量化保留了更高的精度，同时实现了最快的性能，并且实现起来最为方便。与INT8或INT4等其他数据格式相比，FP8量化保留了更高的精度，同时实现了最快的性能，并且实现起来最为方便

如何获取TensorRT-LLM

尽管TensorRT-LLM尚未正式发布，但用户现在已经可以提前体验了

申请链接如下：

https://developer.nvidia.com/tensorrt-llm-early-access/join

英伟达也说会将TensorRT-LLM很快集成到NVIDIA NeMo框架中。

这个框架是最近由英伟达推出的AI Enterprise的组成部分，为企业客户提供了一个安全、稳定、可管理性极强的企业级AI软件平台

开发人员和研究人员可以通过英伟达NGC上的NeMo框架或GitHub上的项目来访问TensorRT-LLM

但是需要注意的是，用户必须注册英伟达开发者计划才能申请抢先体验版本。

网友热议

Reddit上的用户对TensorRT-LLM的发布进行了激烈的讨论

难以想象专门针对LLM对硬件做出优化之后，效果将会有多大的提升。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

但也有网友认为，这个东西的意义就是帮助老黄卖更多的H100。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

有些网友对此持不同意见，他们认为Tensor RT对于本地部署深度学习的用户也是有帮助的。只要拥有RTX GPU，将来在类似的产品上也有可能受益

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

从更宏观的角度来看，也许对于LLM而言，会出现一系列专门针对硬件级别的优化措施，甚至可能会出现专门为LLM设计的硬件来提升其性能。这种情况在许多流行的应用中已经出现过，LLM也不会例外

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

意兔-AI漫画相机

意兔-AI漫画相机

照片变漫画手绘，做周边好物

下载

相关文章

Codeium跨IDE使用怎么设置_开发环境配置方法是什么【指南】

InternVL-U— 上海AI Lab等开源的多模态一体化模型

Solaris— 谢赛宁研究团队开源的多人视频世界生成模型

OpenClaw能在平板电脑上流畅玩吗_OpenClaw安卓平板优化使用方法【技巧】

Dify如何连接知识库实现问答_Dify知识库配置方法【操作】

相关标签:

英伟达架构封装接口 github transformer gpt-3 https 开源软件 gpt llama Access

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：人机协同安全高效 ——国网江苏超高压公司构建10类输电检修无人机作业场景下一篇：百度智能云发布 11 款面向企业通用场景的 AI 原生应用

作者最新文章

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

微信小程序怎么定时发朋友圈免费微信朋友圈定时发送工具

2026-02-01 08:25

mysql如何进行子查询_mysql嵌套查询实现方法

2026-03-03 10:56

mysql如何注释SQL语句_mysql单行与多行注释规范

2026-03-04 09:49

mysql如何插入或忽略_mysql insert ignore用法

2026-03-10 03:53

mysql如何查看字段信息_mysql desc与describe

2026-03-11 10:25

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

硬盘接口类型介绍

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1962

2023.10.19

PHP接口编写教程

PHP接口编写教程

本专题整合了PHP接口编写教程，阅读专题下面的文章了解更多详细内容。

658

2025.10.17

php8.4实现接口限流的教程

php8.4实现接口限流的教程

PHP8.4本身不内置限流功能，需借助Redis（令牌桶）或Swoole（漏桶）实现；文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2403

2025.12.29

java接口相关教程

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

47

2026.01.19

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4354

2026.01.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2926

2024.08.16

vb中怎么连接access数据库

vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容，供大家免费下载体验。

329

2023.10.09

vb连接access数据库的方法

vb连接access数据库的方法

vb连接access数据库方法：1、使用ADO连接，首先导入System.Data.OleDb模块，然后定义一个连接字符串，接着创建一个OleDbConnection对象并使用Open() 方法打开连接；2、使用DAO连接，首先导入 Microsoft.Jet.OLEDB模块，然后定义一个连接字符串，接着创建一个JetConnection对象并使用Open()方法打开连接即可。

480

2023.10.16

TypeScript类型系统进阶与大型前端项目实践

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

【web前端】Node.js快速入门

【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析

swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂

ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

最新文章

更多

QClaw怎么让AI自动下载邮件附件_QClaw邮件客户端自动化【方法】

QClaw在Linux系统如何部署_QClawLinux部署方法【教程】

QClaw怎么查看后台运行日志_QClaw调试信息与错误排查【操作】

Writesonic如何生成商品描述_Writesonic电商文案制作方法【说明】

Cursor无法识别代码怎么办_Cursor问题排查办法【解答】

DeepSeek提示词如何写更清晰_DeepSeek高效提问方法【教程】

Auphonic自动母带处理怎么用_音质提升方法是什么【技巧】

workbuddy怎么导出数据_workbuddy数据导出操作【操作】

ChatGPT写作速度慢怎么办_ChatGPT提高生成效率技巧【技巧】

Perplexity怎么分析财报数据_Perplexity提取PDF关键数据教程【秘籍】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部