TD3:双延迟深度确定性策略梯度算法

目录

模型架构

Double Q-learning

Target Policy Smoothing?

Delayed

损失函数

学习过程


TD3:Twin Delayed Deep Deterministic Policy Gradient,是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在DDPG算法基础上,同时对policy网络和value网络进行改进,优化了Q-Value的过高估计问题。

模型架构

Double Q-learning

DDQN借鉴了Double Q-learning的思想,将选取action和估计value分别在predict network和target network网络上计算,有效优化了DQN的Q-Value过高估计问题。

TD3采用了更加原始的Double Q-learning方法,单独设计了两个网络(Twin)表示不同的Q-Value,通过选取最小的Target Q,来抑制持续地过高估计。

Target Policy Smoothing

TD3在Target Network估计Excepted Return部分,对policy网络引入随机噪声,以期达到对policy波动的稳定性。

这里的随机噪声与predict policy为了增加探索性而引入的随机噪声是由不同的参数控制的独立分布;同时这里的随机噪声是为了解决target policy与Q两个网络的连接鲁棒性而设计的。

Delayed

policy的误差能够影响到Q的估计,而Q也是policy更新的参照。

基于这样一种直觉,如果Q能稳定下来再学习policy,应该就会减少一些错误的更新;policy网络参数更新有一定的延迟,更新频率低于Q网络。

损失函数

学习过程

学习过程如上,整个过程和DDPG一致:

1,采用类似DQN的Experience Replay Memory机制。

2,目标网络和预测网络各有三套参数,一个policy网络,两个value网络。

3,两个随机噪声,一个用于policy预测网络采样中,保证action的探索能力;一个用于policy目标网络估计时,用于提高对policy的robust,两者是独立的;

4,预测网络policy在更新参数时,选择其中一个Q(s, a)网络即可。

5,policy网络参数更新有延迟,低于value网络的更新,也是Delayed意所指。