站内搜索

搜索
热搜: 搜索小技巧

旦漫吧

回复自己,水金币

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
发表于 2025-8-3 19:48:14 | 显示全部楼层 |阅读模式
Dyna-Q算法(带调整探索策略和规划步骤)
这是一个结合了实际经验学习和模拟经验规划的强化学习算法,是经典Dyna-Q的改进版本。

算法概述
初始化阶段:

任意初始化Q函数(动作价值函数)Q(s,a)

初始化环境模型M(s,a)用于模拟

设置训练周期T、学习率α和折扣因子γ

主循环(每次迭代):

从初始状态s开始

根据STC(可能是某种调度策略)调整两个关键参数:


升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:48:50 | 显示全部楼层
回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:49:14 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:49:33 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:49:56 | 显示全部楼层

回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:50:43 | 显示全部楼层


回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:51:06 | 显示全部楼层
回复一下
回复

使用道具 举报

升级   74%

15

主题

230

帖子

124

金钱

新手上路

Rank: 1

积分
37
 楼主| 发表于 2025-8-3 19:51:41 | 显示全部楼层
回复一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

合作
关于我们 加入我们
友情链接 媒体合作
联系我们
社区
旦美漫画 旦美小说
旦美图片 旦美电影
旦美动漫 旦美游戏
声明
_______ 免责声明
反馈
意见建议 用户使用协议
帮助
更多
_______

_______

手机版|小黑屋|旦漫吧

Powered by Discuz! X3.4 © 2001-2013 Comsenz Inc.