Q-learning 是 value base 的方法,在這種方法中我們不是要學習一個 policy 網絡,而是要學一個 critic 網絡。
critic 並不採取行為,只是針對現有的 actor...
Q-learning 是 value base 的方法,在這種方法中我們不是要學習一個 policy 網絡,而是要學一個 critic 網絡。
critic 並不採取行為,只是針對現有的 actor π,評價它的好壞。
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/QLearning%20(v2).pdf