站内搜索

搜索
热搜: 搜索小技巧

旦漫吧

水金币

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
发表于 2025-8-3 19:48:37 | 显示全部楼层 |阅读模式
ε(探索率):控制探索-利用的平衡

N_t(规划步数):决定每次迭代中模拟更新的次数

使用ε-greedy策略选择动作a

执行动作,观察成本c和新状态s'

用规则(1)更新Q(s,a)(可能是标准的Q学习更新)

更新模型M(s,a) ← (s',c)(记录状态转移和成本)

规划阶段:

进行N_t次模拟更新:

随机选择之前观察过的状态s和动作a

从模型M中获取模拟的下一个状态s'和成本c

用同样的规则(1)更新Q(s,a)

这种"离线"更新利用模型经验加速学习

关键特点
双重学习机制:

既从真实环境经验学习(直接强化学习)

又从内部模型模拟的经验学习(模型规划)

动态调整策略:

ε和N_t在训练过程中动态调整(STC过程控制)

可能随着时间减少探索(ε↓)或调整规划强度(N_t变化)

样本效率:

通过模型模拟获得额外训练样本

减少对昂贵真实交互的需求

算法优势
这种结构结合了无模型强化学习(直接学习)和基于模型强化学习(规划)的优点:

保持了Q学习对真实环境的适应能力

通过模型规划加速收敛

动态调整参数平衡探索与利用

典型的应用场景是环境交互成本高,但建立合理模型相对容易的情况。

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:49:01 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:49:45 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:50:11 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:52:00 | 显示全部楼层
回复一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

合作
关于我们 加入我们
友情链接 媒体合作
联系我们
社区
旦美漫画 旦美小说
旦美图片 旦美电影
旦美动漫 旦美游戏
声明
_______ 免责声明
反馈
意见建议 用户使用协议
帮助
更多
_______

_______

手机版|小黑屋|旦漫吧

Powered by Discuz! X3.4 © 2001-2013 Comsenz Inc.