如何让多个 Ray Actor 并发写入共享数据缓冲区并由主线程安全读取

花韻仙語

发布时间：2026-02-07 11:32:35

878人浏览过

来源于php中文网

原创

如何让多个 Ray Actor 并发写入共享数据缓冲区并由主线程安全读取

本文介绍一种基于 ray 线程化 actor（`max_concurrency`）的轻量级方案，使多个远程 `datagenerator` 实例持续生成数据并存入各自缓冲区，主线程可无阻塞地批量拉取所有缓冲数据，避免传统共享队列的复杂性与同步风险。

在分布式数据生成场景中，常需多个 Ray Actor 并行生产数据，并由主驱动线程统一收集处理。但默认情况下，Ray Actor 是单线程串行执行的：一旦某个方法（如 generate()）进入无限循环，其他方法（如 pop_data()）将被永久阻塞，导致主线程无法及时获取数据。

核心解法：启用线程化 Actor（Threaded Actor）
通过 .options(max_concurrency=N) 显式允许 Actor 同时处理多个远程调用，即可实现“后台持续生成 + 前台即时读取”的并发模型。只需设置 max_concurrency=2，即允许多至 2 个方法并行执行——一个运行 generate() 循环，另一个响应 pop_data() 请求。

以下是完整、可直接运行的实践代码：

import ray
import random
import time

ray.init(ignore_reinit_error=True)

@ray.remote
class DataGenerator:
    def __init__(self):
        self.data_buffer = []

    def generate(self):
        while True:
            time.sleep(5)  # 模拟耗时数据生成
            data = random.random()  # 注意：原示例中 random.rand() 应为 random.random()
            self.data_buffer.append(data)

    def pop_data(self):
        """原子性获取并清空当前缓冲区"""
        data = self.data_buffer.copy()  # 避免引用共享问题
        self.data_buffer.clear()
        return data

# 启动 10 个并发 Actor，每个支持最多 2 个并发方法调用
N_HANDLES = 10
generator_handles = [
    DataGenerator.remote().options(max_concurrency=2)
    for _ in range(N_HANDLES)
]

# 启动所有生成器（非阻塞）
for handle in generator_handles:
    handle.generate.remote()

# 主线程：周期性拉取全部数据并处理
all_data = []
while True:
    # 并发获取所有 Actor 的当前缓冲数据
    results = ray.get([h.pop_data.remote() for h in generator_handles])

    # 合并数据
    for batch in results:
        all_data.extend(batch)

    print(f"已累积 {len(all_data)} 条数据")

    # ✅ 此处可执行任意计算密集型任务（如模型推理、批处理等）
    # 即使耗时较长，也不会阻塞 Actor 的数据生成
    # time.sleep(30)  # 示例：模拟长耗时处理

    # （可选）重置或限流：防止 all_data 无限增长
    if len(all_data) > 1000:
        all_data = all_data[-500:]  # 保留最新 500 条

✅ 关键优势说明：

Ribbet.ai

免费在线AI图片处理编辑

下载

零共享状态：无需 threading.Queue、ray.util.queue.Queue 或外部 Redis，规避跨进程/跨节点序列化与锁竞争；
天然隔离：每个 Actor 拥有独立 data_buffer，无并发修改风险；
低延迟读取：pop_data() 始终可立即响应，不受 generate() 循环影响；
弹性伸缩：Actor 数量与 max_concurrency 可按负载独立调整。

⚠️ 注意事项：

max_concurrency 必须 ≥ 2，否则 pop_data() 调用将永远等待 generate() 结束（而它永不结束）；
random.random() 替代了原文误写的 random.rand()（后者属于 NumPy，需 import numpy as np）；
若需强一致性（如严格 FIFO 全局顺序），本方案不适用——此时应引入中心化队列（如 ray.util.queue.Queue）并配合 ray.wait() 流控；
缓冲区过大会增加内存压力，建议在 pop_data() 中做截断或在主线程中定期清理。

该模式是 Ray 官方推荐的“Actor 内部状态 + 并发访问”典型范式，兼顾简洁性、性能与可维护性，适用于实时数据采集、日志聚合、传感器流预处理等场景。

Python 文件锁在多进程下是否可靠？

fastapi 如何实现简单基于 IP 的频率限制（不依赖 redis）

Python 如何防止重放攻击？

fastapi 如何实现 token 刷新机制（不使用 jwt 库）

fastapi 如何实现简单的基于 IP 的频率限制

相关标签:

redis app ai 并发访问 red 分布式 numpy 循环线程主线程并发 redis 传感器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 GUI 自动化脚本中实现全局按键暂停（无需手动切回终端）下一篇：暂无

作者最新文章

如何在 Go 中使用接口类型灵活处理 JSON 中结构可变的字段

2026-02-04 16:39

如何在 PHP 中正确接收 UDP 广播包

2026-02-04 16:45

如何在嵌套对象数组中根据子元素 ID 查找其父元素的 i 属性

2026-02-04 16:50

咪咕阅读作者福利待遇怎么样

2026-02-04 17:06

如何在 MicroPython 中实现按钮循环切换选项功能

2026-02-04 17:09

Mongoose 版本与 Node.js 兼容性问题详解

2026-02-04 17:13

如何使用 jQuery 通过按钮点击动态修改另一个按钮的文本内容

2026-02-04 17:24

Java中二维数组声明与初始化的常见错误解析

2026-02-04 17:42

如何实现可访问的网格链接：避免 ARIA 和 tabindex 的误用

2026-02-04 17:42

汽车之家app怎么查看群聊

2026-02-04 17:49

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

378

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

238

2023.10.07

线程和进程的区别

线程和进程的区别：线程是进程的一部分，用于实现并发和并行操作，而线程共享进程的资源，通信更方便快捷，切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

612

2023.08.10

线程和进程的区别

612

2023.08.10

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

986

2023.11.02

内存数据库有哪些

内存数据库有Redis、Memcached、Apache Ignite、VoltDB、TimesTen、H2 Database、Aerospike、Oracle TimesTen In-Memory Database、SAP HANA和ache Cassandra。更多关于内存数据库相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

650

2023.11.14

mongodb和redis哪个读取速度快

redis 的读取速度比 mongodb 更快。原因包括：1. redis 使用简单的键值存储，而 mongodb 存储 json 格式的数据，需要解析和反序列化。2. redis 使用哈希表快速查找数据，而 mongodb 使用 b-tree 索引。因此，redis 在需要高性能读取操作的应用程序中是一个更好的选择。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

493

2024.04.02