logo
Loading...

Multi-Step TD Target (TD Learning 3/3) - Shusen Wang - 深度學習 Deep Learning 公開課 - Cupoy

这节课介绍“多步 TD target”,它是对标准的 TD target 的推广。它是训练 DQN 和价值网络的常用技巧,它可以让 Sarsa 和 Q-learning 算法效果更好。 Temp...

这节课介绍“多步 TD target”,它是对标准的 TD target 的推广。它是训练 DQN 和价值网络的常用技巧,它可以让 Sarsa 和 Q-learning 算法效果更好。 Temporal Difference (TD) Learning (时间差分法): 1. Sarsa 算法: • Sarsa算法 (TD Learning 1/3) 2. Q-learning 算法: • Q-Learning算法 (TD Learning 2/3) 3. Multi-step TD target: • Multi-Step TD Target (TD Learning 3/3)