Loading...

Policy Gradient (Review) - 李宏毅_強化學習（Reinforce Learning） - Cupoy

PPO是 Policy Gradient 的變形，先複習 Policy Gradient。 policy gradient的基本組成： Policy Gradient 中的 Basic Compone...

AI共學社群

PPO是 Policy Gradient 的變形，先複習 Policy Gradient。 policy gradient的基本組成： Policy Gradient 中的 Basic Components 有三個：actor、environment、reward function。其中 env 和 reward function 是你不能控制的，你只能控制actor。 Policy of Actor： actor 的 policy 決定了 actor 的行為，policy 是一個由參數表示的網絡。網絡的輸入是 machine 的所見（observation），用vector 或 matrix 表示。網絡的輸出是 machine 採取的行為。影片內容 pdf：http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf