这节课介绍“多步 TD target”,它是对标准的 TD target 的推广。它是训练 DQN 和价值网络的常用技巧,它可以让 Sarsa 和 Q-learning 算法效果更好。
Temporal Difference (TD) Learning (时间差分法):
1. Sarsa 算法:
• Sarsa算法 (TD Learning 1/3)
2. Q-learning 算法:
• Q-Learning算法 (TD Learning 2/3)
3. Multi-step TD target:
• Multi-Step TD Target (TD Learning 3/3)