|
ε(探索率):控制探索-利用的平衡
N_t(规划步数):决定每次迭代中模拟更新的次数
使用ε-greedy策略选择动作a
执行动作,观察成本c和新状态s'
用规则(1)更新Q(s,a)(可能是标准的Q学习更新)
更新模型M(s,a) ← (s',c)(记录状态转移和成本)
规划阶段:
进行N_t次模拟更新:
随机选择之前观察过的状态s和动作a
从模型M中获取模拟的下一个状态s'和成本c
用同样的规则(1)更新Q(s,a)
这种"离线"更新利用模型经验加速学习
关键特点
双重学习机制:
既从真实环境经验学习(直接强化学习)
又从内部模型模拟的经验学习(模型规划)
动态调整策略:
ε和N_t在训练过程中动态调整(STC过程控制)
可能随着时间减少探索(ε↓)或调整规划强度(N_t变化)
样本效率:
通过模型模拟获得额外训练样本
减少对昂贵真实交互的需求
算法优势
这种结构结合了无模型强化学习(直接学习)和基于模型强化学习(规划)的优点:
保持了Q学习对真实环境的适应能力
通过模型规划加速收敛
动态调整参数平衡探索与利用
典型的应用场景是环境交互成本高,但建立合理模型相对容易的情况。
|
|