C++如何调用CUDA核函数？（GPU编程入门）

穿越時空

发布时间：2026-02-19 16:43:05

175人浏览过

来源于php中文网

原创

核函数必须用__global__修饰且返回void，参数按值传递并指向设备内存，需cudamalloc分配、cudamemcpy拷贝、cudadevicesynchronize同步；启动语法为kernel，编译必须用nvcc。

c++如何调用cuda核函数？（gpu编程入门）

核函数定义必须用 `global` 修饰

不加这个关键字，编译器根本不会把它当 GPU 函数处理，链接时会报 undefined reference to 'kernel_name'。它不是可选语法糖，是 CUDA 编译器识别核函数的硬性标记。

__global__ 函数返回类型只能是 void，哪怕你只想要一个状态码也不行
不能有非 void 返回值，也不能是类成员函数（除非显式绑定到对象指针并传入）
参数全部按值传递，指针参数指向的是设备内存——别直接传 host 数组地址

调用前必须先分配设备内存并拷贝数据

GPU 不能直接读 host 内存，cudaMemcpy 不是可选步骤，漏掉或方向写反（比如用 cudaMemcpyHostToDevice 却传了设备指针）会导致核函数读到全零或乱码。

用 cudaMalloc 分配 device 内存，对应 cudaFree 释放，别混用 malloc/free
拷贝方向要严格匹配：host → device 用 cudaMemcpyHostToDevice，device → host 用 cudaMemcpyDeviceToHost
核函数执行完必须调用 cudaDeviceSynchronize() 才能安全读回结果，否则可能拿到旧数据

启动语法里三个维度括号容易写错顺序

核函数调用后面那对双括号 >> 是 CUDA 特有语法，第一个括号是线程块配置，第二个是流（通常为 0），顺序和含义非常固定。

正确写法：kernel_name>>(args...)
grid_size 和 block_size 都是整数，不是数组；想用二维布局得用 dim3 类型，比如 dim3 grid(16, 16), block(8, 8)
第三个参数是 shared memory 大小（字节），不写就是 0；第四个是 stream，不指定就用默认流（0）
常见错误：把 block_size 写成总线程数（比如 1024），实际应是每块线程数，总块数由 grid_size 控制

编译必须用 `nvcc`，不能只靠 g++

CUDA 代码混着 host 和 device 逻辑，g++ 完全不认识 __global__、>> 这些符号，直接编译会报一堆语法错误。

立即学习“C++免费学习笔记（深入）”；

源文件后缀建议用 .cu，nvcc 才会启用 CUDA 前端解析
主机代码（如 main()）和核函数可以写在同一文件里，nvcc 会自动分离编译
如果用 CMake，得调用 find_package(CUDA) 并设置 set_source_files_properties(file.cu PROPERTIES LANGUAGE CUDA)，否则仍走 g++ 路径

核函数里不能调用标准库函数（比如 printf 除外，且需用 __device__ 版本），也不能用 new/delete —— 这些细节在第一次跑出“结果没变”或“程序卡死”时才暴露，但原因往往藏在最基础的修饰符或内存路径里。

C++中std::flat_set有什么优势_C++23高性能顺序容器对比分析【选型】

c++如何将对象序列化_c++二进制持久化方法【实战】

C++如何实现带背压的gRPC流控？（基于接收窗口反馈）

C++如何使用constexpr？（编译期常量表达式示例）

c++怎么给数组动态扩容_c++模拟动态数组【技巧】

编程速学教程(入门课程)

编程怎么学习？编程怎么入门？编程在哪学？编程怎么学才快？不用担心，这里为大家提供了编程速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

c++ 成员函数 printf void 指针堆线程值传递 delete undefined 对象

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++怎么使用unique_ptr_C++智能指针教程【安全】下一篇：C++如何实现可插拔的指标上报后端？（Prometheus/StatsD切换）

作者最新文章

Linux怎么查看日志文件_Linux tail和less命令使用【排错】

2026-02-19 10:41

火绒安全软件怎么清理电脑缓存垃圾_火绒系统清理功能操作说明【攻略】

2026-02-19 10:43

美团外卖怎么解绑银行卡_美团支付方式管理设置【解绑】

2026-02-19 10:45

百度贴吧在线使用入口百度贴吧官网网页版

2026-02-19 10:51

虫虫助手官方网站地址虫虫助手网页在线玩

2026-02-19 10:52

C++如何使用模板元编程？（编译期计算示例）

2026-02-19 10:53

Win11电脑怎么查看WiFi密码_Windows网络属性【必看】

2026-02-19 10:55

微信公众号官网首页登录微信公众平台官方入口

2026-02-19 10:59

百度地图怎么关闭播报_百度导航静音模式设置【静音】

2026-02-19 11:01

vivo手机怎么设置锁屏文字_vivo手机锁屏签名修改方法【知识】

2026-02-19 11:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

printf用法大全

php中文网为大家提供printf用法大全，以及其他printf函数的相关文章、相关下载资源以及各种相关课程，供大家免费下载体验。

2023.06.20

fprintf和printf的区别

fprintf和printf的区别在于输出的目标不同，printf输出到标准输出流，而fprintf输出到指定的文件流。根据需要选择合适的函数来进行输出操作。更多关于fprintf和printf的相关文章详情请看本专题下面的文章。php中文网欢迎大家前来学习。

298

2023.11.28

javascriptvoid(o)怎么解决

javascriptvoid(o)的解决办法：1、检查语法错误；2、确保正确的执行环境；3、检查其他代码的冲突；4、使用事件委托；5、使用其他绑定方式；6、检查外部资源等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

183

2023.11.23

java中void的含义

本专题整合了Java中void的相关内容，阅读专题下面的文章了解更多详细内容。

115

2025.11.27

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

419

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

594

2023.08.10

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

675

2023.08.10

java值传递和引用传递有什么区别

java值传递和引用传递的区别：1、基本数据类型的传递；2、对象的传递；3、修改引用指向的情况。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

108

2024.02.23

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式，涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明，帮助用户高效找到pixiv官方网站，实现便捷、安全的网页端浏览与账号登录体验。

660

2026.02.13

热门下载

网站特效

网站源码

网站素材

前端模板

C++如何调用CUDA核函数？（GPU编程入门）

核函数定义必须用 __global__ 修饰

调用前必须先分配设备内存并拷贝数据

启动语法里三个维度括号容易写错顺序

编译必须用 nvcc，不能只靠 g++

核函数定义必须用 `global` 修饰

编译必须用 `nvcc`，不能只靠 g++