0

0

C++怎么调用CUDA_C++GPU并行编程入门【加速】

穿越時空

穿越時空

发布时间:2026-03-02 09:23:13

|

925人浏览过

|

来源于php中文网

原创

cuda c++必须用nvcc编译,因g++不识别__global__等关键字;.cu文件需用nvcc -o输出;kernel启动三尖括号非模板语法,须填运行时确定的grid/block尺寸;数据须显式拷贝,注意方向与同步;__global__函数无返回值,禁用stl,可用thrust替代。

c++怎么调用cuda_c++gpu并行编程入门【加速】

CUDA C++ 代码必须用 nvcc 编译,不能用 g++/clang++ 直接编译

CUDA C++ 不是“加个 flag 就能跑的 C++”,nvcc 是专用编译器,负责拆分主机(host)和设备(device)代码。用 g++ 直接编译 .cu 文件会报一堆 undefined reference to 'cudaLaunchKernel'__global__ 语法错误——因为 g++ 根本不认识 __global____device__ 这些关键字。

实操建议:

  • 源文件后缀必须为 .cu(哪怕里面只有纯 C++ 函数)
  • 编译命令固定用:nvcc -o myapp myapp.cu
  • 如果要链接 OpenCV 或其他库,把 -lopencv_core 等放 nvcc 命令末尾,别写在前面
  • 调试时加 -Xcompiler -g 让主机端支持 gdb,但设备端调试得用 cuda-gdb

kernel 启动语法里 >> 不是模板,是运行时配置,括号里不能写变量名

my_kernel>>(arg1, arg2) 这个三尖括号不是 C++ 模板语法,而是 nvcc 特殊解析的 kernel 启动符。里面填的是运行时确定的整数:线程块数量(grid)和每块线程数(block),不能是未初始化变量或非常量表达式。

常见错误现象:

立即学习C++免费学习笔记(深入)”;

  • error: expected an expression —— 写了 my_kernel>>(),但 NM 是函数参数或运行时读入的值(必须是常量?不,其实是允许变量,但必须是已知值;真正错因常是类型不对,比如传了 size_t 却没显式转 int
  • 启动后卡死或结果全零 —— grid 算少了,比如用 (N / block) 忘了向上取整,导致最后几个元素没被覆盖

正确做法:

通义灵码
通义灵码

阿里云出品的一款基于通义大模型的智能编码辅助工具,提供代码智能生成、研发智能问答能力

下载
  • (N + block - 1) / block 算 grid 维度
  • block 大小优先选 32 的倍数(如 128、256),避开 17、43 这种非 warp 对齐值(否则浪费资源)
  • 启动前加 cudaError_t err = cudaGetLastError(); if (err != cudaSuccess) printf("%s\n", cudaGetErrorString(err));,否则 kernel 失败静默吞掉

GPU 显存和 CPU 内存不互通,所有数据都要显式拷贝

写完 kernel 一运行就 cudaErrorInvalidValue 或结果乱码?八成是忘了把输入数据从 CPU 内存搬到 GPU 显存。GPU 不能直接读 int* h_data = new int[N],必须用 cudaMalloc 分配显存,再用 cudaMemcpy 拷过去。

关键细节:

  • cudaMalloc(&d_data, N * sizeof(int)) 分配的是 device 指针,类型是 int*,但语义上它不能传给普通函数
  • 拷贝方向容易搞反:cudaMemcpy(d_data, h_data, ..., cudaMemcpyHostToDevice),第三个参数别写成 cudaMemcpyDeviceToHost
  • 别在 kernel 调用后立刻 cudaMemcpy 回 CPU —— 默认是异步的,得先 cudaDeviceSynchronize(),否则可能读到旧数据
  • 显存不释放会累积泄漏,对应 cudaFree(d_data),且不能对同一指针调两次

__global__ 函数不能有返回值,也不能调用标准 C++ STL 容器

想让 kernel 返回一个 std::vector<float></float>?不行。写 __global__ void foo() { return 42; }?编译直接报错。GPU kernel 是 void 函数,所有输出都靠写显存地址实现。

为什么限制这么死?因为 kernel 在成百上千个并行线程里执行,没有统一“返回”概念;STL 容器依赖主机堆管理、异常、RTTI 等,GPU 端 runtime 不提供。

替代方案:

  • 输出结果写进预分配的 device 数组(float* d_out),CPU 端再拷回来
  • 需要动态数组?用 thrust::device_vector(需包含 <thrust></thrust>),它是 CUDA 封装好的、可在 device 上构造的容器
  • 想用 sort 或 reduce?直接调 thrust::sort(d_begin, d_end),底层自动 dispatch 到 GPU,比手写 kernel 更快也更稳

设备端能用的数学函数有限,比如 sqrtf()(单精度)可用,std::sqrt() 不行;printf 在 kernel 里能用但仅限于计算能力 2.0+ 且要加 -arch=sm_35 类似参数,还只支持基础格式符。

相关文章

编程速学教程(入门课程)
编程速学教程(入门课程)

编程怎么学习?编程怎么入门?编程在哪学?编程怎么学才快?不用担心,这里为大家提供了编程速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

592

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

105

2025.10.23

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

838

2023.08.22

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

406

2023.09.04

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

357

2023.10.25

printf用法大全
printf用法大全

php中文网为大家提供printf用法大全,以及其他printf函数的相关文章、相关下载资源以及各种相关课程,供大家免费下载体验。

76

2023.06.20

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

24

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.5万人学习

C 教程
C 教程

共75课时 | 5.1万人学习

C++教程
C++教程

共115课时 | 20万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号