logo
Loading...

Q-learning (Basic Idea) - 李宏毅_強化學習(Reinforce Learning) - Cupoy

Q-learning 是 value base 的方法,在這種方法中我們不是要學習一個 policy 網絡,而是要學一個 critic 網絡。 critic 並不採取行為,只是針對現有的 actor...

Q-learning 是 value base 的方法,在這種方法中我們不是要學習一個 policy 網絡,而是要學一個 critic 網絡。 critic 並不採取行為,只是針對現有的 actor π,評價它的好壞。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/QLearning%20(v2).pdf