Loading...

Multi-Step TD Target (TD Learning 3/3) - Shusen Wang - 深度學習 Deep Learning 公開課 - Cupoy

这节课介绍“多步 TD target”，它是对标准的 TD target 的推广。它是训练 DQN 和价值网络的常用技巧，它可以让 Sarsa 和 Q-learning 算法效果更好。 Temp...

AI共學社群

这节课介绍“多步 TD target”，它是对标准的 TD target 的推广。它是训练 DQN 和价值网络的常用技巧，它可以让 Sarsa 和 Q-learning 算法效果更好。 Temporal Difference (TD) Learning (时间差分法)： 1. Sarsa 算法： • Sarsa算法 (TD Learning 1/3) 2. Q-learning 算法： • Q-Learning算法 (TD Learning 2/3) 3. Multi-step TD target： • Multi-Step TD Target (TD Learning 3/3)