如何使用NVIDIA Nsight分析c++ CUDA程序的性能？ (GPU Profiling)

尼克

发布时间：2026-01-28 10:19:32

476人浏览过

来源于php中文网

原创

nsight-compute（ncu）比nvprof更适合现代CUDA性能分析，因其支持Turing及更新架构、提供kernel级底层指标，而nvprof在CUDA 11.0+中已被弃用且不支持Ampere等新架构。

如何使用nvidia nsight分析c++ cuda程序的性能？ (gpu profiling)

为什么 `nsight-compute` 比 `nvprof` 更适合现代 CUDA 性能分析

因为 nvprof 已在 CUDA 11.0+ 中被标记为 deprecated，且不支持 Ampere 及更新架构（如 A100、RTX 4090）的完整指标采集。实际 profiling 时若看到 Unsupported GPU architecture 或关键指标（如 s__inst_executed、dram__bytes_read）为空，基本就是 nvprof 失效了。

推荐直接用 nsight-compute（命令行工具 ncu），它原生支持所有 Turing 及之后架构，并能精确到 kernel launch 级别采集指令吞吐、内存带宽、warp 指令分发等底层数据。

ncu 默认只采样单个 kernel；加 --set full 才能拿到完整指标集（含 L2、DRAM、Tensor Core 利用率）
若程序含多个 kernel，用 --kernel-id all 或 --kernel-name ".*copy.*" 过滤目标 kernel
避免在 X11 图形会话下运行 —— 容易触发 NCU: Error: CUresult driver error: 999 (CUDA_ERROR_UNKNOWN)，改用 TTY 或 ssh -X 后加 export DISPLAY= 显式指定

如何用 `ncu` 快速定位 memory-bound kernel

大多数性能瓶颈不在计算，而在显存带宽或延迟。用 ncu 跑一次 baseline，重点看三组比率：

lts__t_sectors.sum.average.pct_of_peak_sustained_elapsed：L2 缓存扇区读写占峰值带宽百分比
dram__bytes.sum.per_second：实际 DRAM 带宽（GB/s），对比卡标称值（如 A100 PCIe 是 1555 GB/s）
sm__sass_thread_inst_executed_op_ld.sum 和 sm__sass_thread_inst_executed_op_st.sum：load/store 指令数，比值明显偏离 1:1 说明访存模式不均衡

如果 dram__bytes.sum.per_second 接近硬件上限但算力利用率（sm__inst_executed）很低，大概率是 global memory 访问未合并 —— 检查 kernel 中数组索引是否满足 threadIdx.x * sizeof(float) 对齐，以及是否用了 __ldg() 提升只读缓存命中。

立即学习“C++免费学习笔记（深入）”；

Giiso写作机器人

Giiso写作机器人，让写作更简单

下载

ncu --set full --kernel-id all --metrics sm__inst_executed,sm__sass_thread_inst_executed_op_ld,sm__sass_thread_inst_executed_op_st,dram__bytes.sum.per_second,lts__t_sectors.sum.average.pct_of_peak_sustained_elapsed ./my_cuda_app

为什么 `nsight-systems`（`nsys`）不能替代 `ncu`

nsys 是 timeline 工具，擅长看 CPU-GPU 协同、kernel 启动间隔、memory copy 与 compute 的重叠程度；但它不提供每个 kernel 的 micro-architectural 指标。两者不是互斥，而是互补。

先用 nsys record -t cuda,nvtx ./my_app 看整体 timeline，确认是否存在 host 等待、kernel launch 频次过高、或 memcpy 占用过多时间
再用 ncu 针对 timeline 中耗时最长的 1–2 个 kernel 做深度分析
若 nsys 显示 kernel duration 很短（ncu 报告高 latency，可能是 kernel 内部有 divergent branch 或大量 __syncthreads()，需结合 --metrics sms__warps_launched,sms__inst_executed 看 warp 利用率

常见 `ncu` 错误及绕过方法

实际跑 ncu 时最常遇到三类失败：

NCU: Error: CUresult driver error: 700 (CUDA_ERROR_LAUNCH_OUT_OF_RESOURCES)：kernel 占用太多寄存器或 shared memory，导致无法启动 profiling context。加 --launch-skip 跳过首次 launch，或用 --unified-memory-profiling off 关闭 unified memory tracking
NCU: Error: Profiling is not supported on this device：当前 GPU 不在 ncu --list-gpus 输出中，检查是否用的是 vGPU、Tesla 模式未启用（nvidia-smi -i 0 -c 3）、或驱动版本太旧（至少需要 R460+）
输出中大量指标为 - 或 0：默认采样集太轻量，必须显式指定 --set full 或自定义 --metrics，不能依赖默认行为

真正难的从来不是跑出数据，而是理解 sm__inst_executed_op_fadd_pred_on.sum 和 sm__inst_executed_op_fmul_pred_on.sum 的比值为何偏离理论 FMA 比例 —— 这往往指向 kernel 中隐式的类型转换或编译器未展开的循环。

c++如何向文件末尾追加内容_c++ ofstream追加模式【实战】

C++ 怎么写入日志文件 C++ ofstream追加模式写文件【工程】

C++二进制文件追加写入（append）模式使用方法

c++中如何实现简单的日志系统_c++输出日志到文件的方法【实例】

c++中如何进行文件追加写入_c++ ios::app模式用法【实例】

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关标签:

工具 nvidia ai c++ 性能瓶颈架构 Float Error copy display ssh

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：c++如何实现线程池_c++ ThreadPool设计思路【源码】下一篇：C++ 怎么判断字符串为空 C++ string empty函数与size比较效率对比【优化】

作者最新文章

Excel怎么提取数字_Excel文本中分离数字公式【教程】

2026-03-12 15:02

Boss直聘网页版登录入口 Boss直聘官方网址入口

2026-03-12 15:05

火绒安全软件怎么防护摄像头火绒安全软件隐私保护【干货】

2026-03-12 15:10

C++怎么使用unordered_map_C++哈希表教程【高效】

2026-03-12 15:11

C++怎么重载运算符 C++运算符重载实例演示【进阶】

2026-03-12 15:11

sublime怎么安装InputHelper_sublime解决Linux输入法【插件】

2026-03-12 15:13

Everything如何自定义快捷键唤出界面_Everything全局快捷键设置【经验】

2026-03-12 15:15

微信怎么开启朋友圈置顶微信朋友圈功能设置步骤【详解】

2026-03-12 15:19

win11怎么把C盘桌面的文件挪到其他盘 win11转移桌面文件夹路径【亲测】

2026-03-12 15:22

XMind怎么设置自动备份保存路径_XMind文件防丢失恢复教程【实用】

2026-03-12 15:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

595

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

108

2025.10.23

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

493

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

382

2023.10.25

scripterror怎么解决

493

2023.10.18

500error怎么解决

382

2023.10.25

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

108

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

324

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板