0

0

极简MuZero算法实践——Paddle2.0版本

P粉084495128

P粉084495128

发布时间:2025-07-21 10:24:57

|

830人浏览过

|

来源于php中文网

原创

DeepMind的MuZero算法继AlphaFold后走红,无需人类知识和规则,能通过分析环境与未知条件博弈。其极简实现含三个模型,通过强化学习训练。在CartPole-v0环境测试,经2000轮训练,模型可完美掌握游戏,展现出超越前代的潜力,未来计划在更多环境复现。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

极简muzero算法实践——paddle2.0版本 - php中文网

继AlphaFold 大火之后,DeepMind 又一款算法蹿红。12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,并详细介绍了这款名为 MuZero 的 AI 算法。

极简MuZero算法实践——Paddle2.0版本 - php中文网

  • AlphaGo 提供了人类知识(Human Knowledge)和规则(Rules),因此可训练出一个大的策略树,来完成搜索、以及帮助做出决策;
  • AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;
  • AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。
  • MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknown Dynamics),来进行不同游戏的博弈。

本项目是一个极简的MuZero的实现,没有使用MCTS方法,模型由Representation_model、Dynamics_Model、Prediction_Model构成:

阿里妈妈·创意中心
阿里妈妈·创意中心

阿里妈妈营销创意中心

下载
  • Representation_model将一组观察值映射到神经网络的隐藏状态s;
  • 动态Dynamics_Model根据动作a_(t + 1)将状态s_t映射到下一个状态s_(t + 1),同时估算在此过程的回报r_t,这样模型就能够不断向前扩展;
  • 预测Prediction_Model 根据状态s_t对策略p_t和值v_t进行估计;
In [1]
import gymimport numpy as npimport paddleimport paddle.nn as nn 
import paddle.optimizer as optimimport paddle.nn.functional as Fimport copyimport randomfrom tqdm import tqdmfrom collections import deque

env = gym.make('CartPole-v0')
hidden_dims = 128o_dim = env.observation_space.shape[0]


act_dim  = env.action_space.n

Representation_model= paddle.nn.Sequential(
    paddle.nn.Linear(
        o_dim, 128),
    paddle.nn.ELU(),
    paddle.nn.Linear(128, hidden_dims),
    
    )# paddle.summary(h, (50,4))class Dynamics_Model(paddle.nn.Layer):
    # action encoding - one hot
    
    def __init__(self, num_hidden, num_actions): 
        super().__init__()
        
        self.num_hidden = num_hidden
        self.num_actions = num_actions
        network = [
        nn.Linear(self.num_hidden+self.num_actions, self.num_hidden),
        nn.ELU(),
        nn.Linear(self.num_hidden,128),
        ]       
        self.network = nn.Sequential(*network)   
        self.hs =  nn.Linear(128,self.num_hidden)
        self.r =  nn.Linear(128,1)    def forward(self, hs,a):
        out = paddle.concat(x=[hs, a], axis=-1)
        out = self.network(out)
        hidden =self.hs(out) 
        reward = self.r(out)        
        
        
        return hidden, reward# D = Dynamics_Model(hidden_dims,act_dim)# paddle.summary(D, [(2,hidden_dims),(2,2)])class Prediction_Model(paddle.nn.Layer):
    
    def __init__(self, num_hidden, num_actions):
        super().__init__()
        
        self.num_actions = num_actions
        self.num_hidden = num_hidden
        
        network = [
            nn.Linear(num_hidden, 128),
            nn.ELU(),
            nn.Linear(128, 128),
            nn.ELU(),
        ]       
        self.network = nn.Sequential(*network)

        self.pi =  nn.Linear(128,self.num_actions)
        self.soft = nn.Softmax()

        self.v =  nn.Linear(128,1)    def forward(self, x):
        out = self.network(x)
        p = self.pi(out)
        p =self.soft(p)

        v = self.v(out)       
        return v, p  

# P= Prediction_Model(hidden_dims,act_dim)# paddle.summary(P, [(32,hidden_dims)])class MuZero_Agent(paddle.nn.Layer):
    
    def __init__(self,num_hidden ,num_actions):
        super().__init__()
        self.num_actions = num_actions
        self.num_hidden = num_hidden
        
        self.representation_model = Representation_model
        self.dynamics_model = Dynamics_Model(self.num_hidden,self.num_actions)
        self.prediction_model = Prediction_Model(self.num_hidden,self.num_actions)      
        


    def forward(self, s,a):
        s_0 = self.representation_model(s)
        s_1 ,r_1 = self.dynamics_model(s_0 , a)
        value , p = self.prediction_model(s_1)    
        return r_1, value ,p
mu = MuZero_Agent(128,2)
mu.train()
In [2]
buffer = deque(maxlen=500)def choose_action(env, evaluate=False):
    values = []    # mu.eval()
    for a in range(env.action_space.n):
        e = copy.deepcopy(env)
        o, r, d, _ = e.step(a)
        act = np.zeros(env.action_space.n); act[a] = 1
        state = paddle.to_tensor(list(e.state), dtype='float32')
        action = paddle.to_tensor(act, dtype='float32')        # print(state,action)
        
        rew, v, pi = mu(state, action)        
        v = v.numpy()[0]    
        values.append(v)    # mu.train()
    if evaluate:        return np.argmax(values)    else:        for i in range(len(values)):            if values[i] < 0:
                values[i] = 0
        s = sum(values)        if s == 0:            return np.random.choice(values)        for i in range(len(values)):
            values[i] /= s        # print(values)
        return np.random.choice(range(env.action_space.n), p=values)

gamma = 0.997batch_size = 64  ##64evaluate = Falsescores = []
avg_scores = []
epochs = 2_000optim = paddle.optimizer.Adam(learning_rate=1e-3,parameters=mu.parameters())

mse_loss = nn.MSELoss()for episode in tqdm(range(epochs)):
    obs = env.reset()
    done = False
    score = 0
    while not done:        
        a = choose_action(env, evaluate=evaluate)
        a_pi = np.zeros((env.action_space.n)); a_pi[a] = 1

        obs_, r, done, _ = env.step(a)
        score += r
        buffer.append([obs, None, a_pi, r/200])
        obs = obs_    #print(f'score: {score}')
    scores.append(score)    if len(scores) >= 100:
        avg_scores.append(np.mean(scores[-100:]))    else:
        avg_scores.append(np.mean(scores))    
    
    cnt = score    for i in range(len(buffer)):        if buffer[i][1] == None:
            buffer[i][1] = cnt / 200
            cnt -= 1
    assert(cnt == 0)    
    if len(buffer) >= batch_size:
        batch = []
        indexes = np.random.choice(len(buffer), batch_size, replace=False)        for i in range(batch_size):
            batch.append(buffer[indexes[i]])
        states = paddle.to_tensor([transition[0] for transition in batch], dtype='float32')
        values = paddle.to_tensor([transition[1] for transition in batch], dtype='float32')
        values = paddle.reshape(values,[batch_size,-1])
        policies = paddle.to_tensor([transition[2] for transition in batch], dtype='float32')
        rewards = paddle.to_tensor([transition[3] for transition in batch], dtype='float32')
        rewards = paddle.reshape(rewards,[batch_size,-1])        for _ in range(2):            # mu.train_on_batch([states, policies], [rewards, values, policies])
            rew, v, pi = mu(states, policies)            # print("----rew---{}----v---{}----------pi---{}".format(rew, v, pi))
            # print("----rewards---{}----values---{}----------policies---{}".format(rewards, values, policies))
            
            
            policy_loss = -paddle.mean(paddle.sum(policies*paddle.log(pi), axis=1))
            mse1 = mse_loss(rew, rewards)
            mse2 =mse_loss(v,values)            # print(mse1,mse2 ,policy_loss)
                       
            loss = paddle.add_n([policy_loss,mse1,mse2])            # print(loss)
            loss.backward()
            optim.step()
            optim.clear_grad()
100%|██████████| 2000/2000 [07:18<00:00,  4.56it/s]
In [ ]
# 模型保存model_state_dict = mu.state_dict()
paddle.save(model_state_dict, "mu.pdparams")
In [4]
import matplotlib.pyplot as plt
plt.plot(scores)
plt.plot(avg_scores)
plt.xlabel('episode')
plt.legend(['scores', 'avg scores'])
plt.title('scores')
plt.ylim(0, 200)
plt.show()
<Figure size 432x288 with 1 Axes>
In [5]
# 模型测试 ,可以看到testing scores在100次测试中均为200,说明模型已经完全掌握了这个简单的游戏# 模型读取# model_state_dict = paddle.load("mu.pdparams")# mu.set_state_dict(model_state_dict)import matplotlib.pyplot as plt
tests = 100scores = []
mu.eval()for episode in range(tests):
    obs = env.reset()
    done = False
    score = 0
    while not done:
        a = choose_action(env, evaluate=True)      
        obs_, r, done, _ = env.step(a)
        score += r
        obs = obs_
    scores.append(score)
plt.plot(scores)
plt.title('testing scores')
plt.show()
<Figure size 432x288 with 1 Axes>

写在最后:

  • MuZero 能够对规则、环境进行建模, 与此同时它还能学会规则,这就是它的最大创新。也是因为这个,MuZero的搜索空间变得更大,所以计算量会大大增加,但理论上仍旧是强化学习。
  • 人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。
  • 后续有计划在Atari、Gomoku、Tic-tac-toe 等环境下复现Muzero算法

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chatgpt使用指南
chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.16

chatgpt官网入口地址合集
chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.16

minimax入口地址汇总
minimax入口地址汇总

本专题整合了minimax相关入口合集,阅读专题下面的文章了解更多详细地址。

4

2026.03.16

C++多线程并发控制与线程安全设计实践
C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开,系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制,同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解,帮助开发者掌握构建稳定高效并发系统的关键技术。

7

2026.03.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

141

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

396

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

65

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 1.0万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号