水金币

sophieHHH · 发表于 2025-8-3 19:48:37

ε（探索率）：控制探索-利用的平衡

N_t（规划步数）：决定每次迭代中模拟更新的次数

使用ε-greedy策略选择动作a

执行动作，观察成本c和新状态s'

用规则(1)更新Q(s,a)（可能是标准的Q学习更新）

更新模型M(s,a) ← (s',c)（记录状态转移和成本）

规划阶段：

进行N_t次模拟更新：

随机选择之前观察过的状态s和动作a

从模型M中获取模拟的下一个状态s'和成本c

用同样的规则(1)更新Q(s,a)

这种"离线"更新利用模型经验加速学习

关键特点
双重学习机制：

既从真实环境经验学习（直接强化学习）

又从内部模型模拟的经验学习（模型规划）

动态调整策略：

ε和N_t在训练过程中动态调整（STC过程控制）

可能随着时间减少探索(ε↓)或调整规划强度(N_t变化)

样本效率：

通过模型模拟获得额外训练样本

减少对昂贵真实交互的需求

算法优势
这种结构结合了无模型强化学习（直接学习）和基于模型强化学习（规划）的优点：

保持了Q学习对真实环境的适应能力

通过模型规划加速收敛

动态调整参数平衡探索与利用

典型的应用场景是环境交互成本高，但建立合理模型相对容易的情况。

sophieHHH · 发表于 2025-8-3 19:49:01

回复一下

sophieHHH · 发表于 2025-8-3 19:49:45

回复一下

sophieHHH · 发表于 2025-8-3 19:50:11

回复一下

sophieHHH · 发表于 2025-8-3 19:52:00

回复一下

水金币

_______