logo
Loading...

Policy Gradient (Review) - Cupoy

PPO是 Policy Gradient 的變形,先複習 Policy Gradient。 policy gradient的基本組成: Policy Gradient 中的 Basic Components 有三個:actor、environment、reward function。 其中 env 和 reward function 是你不能控制的,你只能控制actor。 Policy of Actor: actor 的 policy 決定了 actor 的行為,policy  是一個由參數  表示的網絡。 網絡的輸入是 machine 的所見(observation),用vector 或 matrix 表示。 網絡的輸出是 machine 採取的行為。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf

PPO是 Policy Gradient 的變形,先複習 Policy Gradient。 policy gradient的基本組成: Policy Gradient 中的 Basic Components 有三個:actor、environment、reward function。 其中 env 和 reward function 是你不能控制的,你只能控制actor。 Policy of Actor: actor 的 policy 決定了 actor 的行為,policy  是一個由參數  表示的網絡。 網絡的輸入是 machine 的所見(observation),用vector 或 matrix 表示。 網絡的輸出是 machine 採取的行為。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf