如何让多个 Ray Worker 并发写入共享数据缓冲区并由主线程安全读取

心靈之曲

发布时间：2026-02-07 11:57:27

121人浏览过

来源于php中文网

原创

如何让多个 Ray Worker 并发写入共享数据缓冲区并由主线程安全读取

本文介绍一种基于 ray 线程化 actor（threaded actors）的轻量级方案，通过设置 `max_concurrency` 实现单个 actor 内部方法的并发调用，使数据生成与获取互不阻塞，无需外部队列或复杂引用管理。

在 Ray 分布式应用中，常需多个 Worker 并行生成数据，并由主驱动线程（driver）持续消费。一个典型误区是试图引入跨进程共享队列（如 multiprocessing.Queue 或 Redis），但这在 Ray 中既不必要也不推荐——它破坏了 Actor 封装性，还引入额外序列化、网络和同步开销。

更优雅且符合 Ray 设计哲学的解法是：利用 Actor 的线程化能力（max_concurrency）实现内部并发。默认情况下，Ray Actor 是单线程顺序执行的：若一个方法（如 generate()）进入无限循环，其他方法（如 pop_data()）将永远无法被调度。而启用 max_concurrency > 1 后，Actor 可在同一实例内并发执行多个远程方法调用，从而让“后台生成”与“前台拉取”真正并行。

以下是完整可运行的实践方案：

Ribbet.ai

免费在线AI图片处理编辑

下载

import ray
import random
import time

ray.init(ignore_reinit_error=True)

@ray.remote
class DataGenerator:
    def __init__(self):
        self.data_buffer = []

    def generate(self):
        # 持续生成数据，不阻塞其他方法调用
        while True:
            time.sleep(5)
            data = random.random()  # 注意：使用 random.random() 替代已弃用的 random.rand()
            self.data_buffer.append(data)

    def pop_data(self):
        # 原子性地取出并清空缓冲区
        data = self.data_buffer.copy()
        self.data_buffer.clear()
        return data

# 启动 10 个并发 Actor，每个支持最多 2 个并发方法调用
N_HANDLES = 10
generator_handles = [
    DataGenerator.remote().options(max_concurrency=2) 
    for _ in range(N_HANDLES)
]

# 启动所有生成器（非阻塞）
for handle in generator_handles:
    handle.generate.remote()

# 主线程持续拉取 & 处理
all_data = []
while True:
    # 并行获取所有 Actor 的当前缓冲数据
    results = ray.get([handle.pop_data.remote() for handle in generator_handles])
    for batch in results:
        all_data.extend(batch)

    print(f"Collected {len(all_data)} samples so far")

    # ✅ 此处可执行任意耗时计算（如模型推理、聚合分析等）
    # 即使耗时数秒，也不会影响 Actor 内部 generate() 的持续运行
    # time.sleep(8)  # 模拟长耗时任务 —— 完全不影响数据生成！

    # 示例：重置用于演示（实际中按需清空）
    if len(all_data) >= 100:
        all_data.clear()

关键要点说明：

max_concurrency=2 是核心：确保 generate()（长期运行）与 pop_data()（短时响应）能同时执行。值为 2 已足够；若需更多并发控制（如带优先级的采集），可进一步扩展。
缓冲区操作需线程安全：虽然 Ray Actor 方法在同一线程内串行执行（除非显式启用 @ray.method(concurrency=True)），但 max_concurrency 启用后，多个方法可能在不同线程中运行。因此 pop_data() 使用 .copy() + .clear() 而非直接赋值，避免竞态；更严格的场景可加 threading.Lock，但本例中因 Actor 方法调度由 Ray 管理，通常已足够安全。
避免 ray.wait + 循环轮询旧模式：原方案依赖 timeout=0 轮询对象引用，逻辑复杂且易漏数据；新方案通过定期 ray.get([...]) 批量拉取，简洁、确定性强、吞吐更高。
无需外部状态协调：所有状态（data_buffer）封装在 Actor 内部，完全规避了分布式队列的可靠性、反压、序列化等问题。

该模式已在生产级流式数据预处理、实时特征抽取等场景验证有效。只要生成逻辑无副作用、消费逻辑能容忍小延迟（如 5s 间隔），即可作为 Ray 中“轻量级发布-订阅”的标准实践。

Python 文件锁在多进程下是否可靠？

fastapi 如何实现简单基于 IP 的频率限制（不依赖 redis）

Python 如何防止重放攻击？

fastapi 如何实现 token 刷新机制（不使用 jwt 库）

fastapi 如何实现简单的基于 IP 的频率限制

相关标签:

redis app ai 封装性 red 分布式封装循环线程主线程 copy 并发对象 redis

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何检测 Python 字符串中是否包含任意类型的引号字符（包括智能引号）下一篇：暂无

作者最新文章

银河麒麟操作系统激活全攻略：常见问题与解决方法

2026-02-04 16:36

Laravel 登录页面提示“Page Expired”的根本原因与解决方案

2026-02-04 16:40

如何在 Go 中安全并发请求多个 URL 并避免 EOF JSON 解析错误

2026-02-04 16:45

如何在 Go REST 服务中正确处理 POST 请求的数据参数

2026-02-04 16:46

如何彻底解决网页页脚下方出现巨大空白的问题（新手友好教程）

2026-02-04 16:49

铁路12306如何办理车辆托运

2026-02-04 16:50

银河麒麟桌面系统卸载应用报错的快速解决方案

2026-02-04 17:00

如何在函数外部访问由函数生成的 Pandas DataFrame

2026-02-04 17:20

PHP 中合并多个学生成绩数组并按 student_id 去重合并

2026-02-04 17:24

如何递归遍历任意深度嵌套的多维数组（支持 foreach 与 for 循环）

2026-02-04 17:37

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

378

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

238

2023.10.07

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

线程和进程的区别

612

2023.08.10

线程和进程的区别

612

2023.08.10

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

986

2023.11.02

内存数据库有哪些

内存数据库有Redis、Memcached、Apache Ignite、VoltDB、TimesTen、H2 Database、Aerospike、Oracle TimesTen In-Memory Database、SAP HANA和ache Cassandra。更多关于内存数据库相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

650

2023.11.14

mongodb和redis哪个读取速度快

redis 的读取速度比 mongodb 更快。原因包括：1. redis 使用简单的键值存储，而 mongodb 存储 json 格式的数据，需要解析和反序列化。2. redis 使用哈希表快速查找数据，而 mongodb 使用 b-tree 索引。因此，redis 在需要高性能读取操作的应用程序中是一个更好的选择。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

493

2024.04.02