0

0

C++如何构建一个高性能的任务图(Task Graph)并行执行引擎?(多核并行)

冰火之心

冰火之心

发布时间:2026-03-12 17:39:42

|

374人浏览过

|

来源于php中文网

原创

std::async + std::future 不适合任务图调度,因其执行时机不可控且不支持显式依赖声明;真实调度需自管理节点生命周期、原子入度计数、条件变量通知及 intrusive_ptr 零拷贝优化。

c++如何构建一个高性能的任务图(task graph)并行执行引擎?(多核并行)

为什么 std::async + std::future 不适合做任务图调度

因为 std::async 默认策略是 std::launch::async | std::launch::deferred,实际执行时机不可控;更关键的是它不提供依赖声明能力——你无法表达「taskB 必须等 taskA 和 taskC 都完成后再启动」。强行用 std::future::wait 串连会退化成线性执行,还容易死锁(比如循环依赖没检测)。

真实任务图引擎必须自己管理节点生命周期、就绪队列和线程唤醒逻辑。常见错误是直接把每个 std::function<void></void> 包进 std::thread,结果线程创建销毁开销压垮吞吐,或忘了对入度计数加锁导致竞态。

  • 依赖关系必须显式建模:每个节点存 std::vector<nodeid></nodeid> 表示前置节点,运行时原子减入度
  • 就绪节点不能靠轮询 std::this_thread::yield() 检查,要用 std::condition_variable + 通知机制
  • 避免在节点函数里调用 std::future::get() 等待其他节点——这会阻塞工作线程,破坏并行度

用 intrusive_ptr + 原子入度实现零拷贝节点调度

任务节点频繁创建/销毁,用 std::shared_ptr 会有额外控制块分配和引用计数原子操作开销。改用 boost::intrusive_ptr(或手写轻量版),把引用计数直接嵌在节点结构体里,add_ref/release 变成单条 fetch_add 指令。

入度字段必须是 std::atomic<int></int>,且初始化为前置节点数量。当某前置节点完成时,对目标节点的入度执行 fetch_sub(1),若返回值为 1,说明这是最后一个依赖,此时把该节点推入全局就绪队列并 notify_one。

立即学习C++免费学习笔记(深入)”;

示例关键片段:

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载
struct TaskNode {
    std::atomic<int> in_degree{0};
    std::function<void()> work;
    std::vector<TaskNode*> dependencies;
};
<p>// 调度器中:
void mark_finished(TaskNode* node) {
for (auto dep : node->dependencies) {
if (dep->in_degree.fetch_sub(1) == 1) {
ready_queue.push(dep);
cv.notify_one();
}
}
}</p>

线程池如何避免虚假唤醒和饥饿

典型错误是让每个工作线程无差别地 cv.wait(lock, [&]{ return !ready_queue.empty(); }),但 notify_one 可能唤醒一个刚检查完队列为空的线程,它又立刻回去等待,造成延迟;更糟的是如果就绪队列始终有任务,但所有线程都在 wait 中,就会卡住。

  • std::queue + std::mutex 实现就绪队列,禁止用 std::deque(迭代器失效风险)
  • wait 条件必须是「队列非空」且「当前线程未被标记为退出」,退出标志位也要原子读
  • 每轮 wait 前先尝试 try_pop(无锁尝试取一个任务),失败再 wait——减少上下文切换
  • 线程数不要硬编码为 std::thread::hardware_concurrency(),有些场景(如大量 IO 任务)设为 2× 核心数反而更稳

GPU/CUDA 任务怎么接入同一套图调度?

CUDA kernel 启动本身是异步的,但 cudaStreamSynchronize 是阻塞点,直接塞进普通节点 work 函数里会拖慢整个线程池。正确做法是把 GPU 任务拆成两阶段:提交阶段(enqueue kernel 到 stream)和同步阶段(等 stream 完成)。

提交阶段作为普通 CPU 节点执行,完成后触发一个专用的「CUDA 同步节点」,该节点不占用工作线程,而是注册到 CUDA stream callback(用 cudaStreamAddCallback),回调里调用 mark_finished 唤醒下游。

  • callback 函数必须是静态 C 函数,不能捕获 this 指针,需通过 void* 参数传节点 ID
  • 确保 callback 执行时,对应节点对象仍存活(用 intrusive_ptr 延长生命周期)
  • 别在 callback 里做耗时操作,只做最小必要通知,否则阻塞 driver 线程

最易被忽略的是内存可见性:CPU 节点写的数据,GPU kernel 要能立即看到,得用 cudaMallocManaged 或显式 cudaMemcpyAsync + cudaStreamSynchronize,不能依赖默认行为。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

490

2025.06.09

golang结构体方法
golang结构体方法

本专题整合了golang结构体相关内容,请阅读专题下面的文章了解更多。

202

2025.07.04

javascriptvoid(o)怎么解决
javascriptvoid(o)怎么解决

javascriptvoid(o)的解决办法:1、检查语法错误;2、确保正确的执行环境;3、检查其他代码的冲突;4、使用事件委托;5、使用其他绑定方式;6、检查外部资源等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.11.23

java中void的含义
java中void的含义

本专题整合了Java中void的相关内容,阅读专题下面的文章了解更多详细内容。

134

2025.11.27

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

Java 并发编程高级实践
Java 并发编程高级实践

本专题深入讲解 Java 在高并发开发中的核心技术,涵盖线程模型、Thread 与 Runnable、Lock 与 synchronized、原子类、并发容器、线程池(Executor 框架)、阻塞队列、并发工具类(CountDownLatch、Semaphore)、以及高并发系统设计中的关键策略。通过实战案例帮助学习者全面掌握构建高性能并发应用的工程能力。

99

2025.12.01

function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

499

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

166

2023.10.07

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 11.2万人学习

C 教程
C 教程

共75课时 | 5.4万人学习

C++教程
C++教程

共115课时 | 21.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号