Loading...

Proximal Policy Optimization (PPO) - 李宏毅_強化學習（Reinforce Learning） - Cupoy

兩種策略：on-policy 和 off-policy：所謂 on-policy 指學習的 agent（即actor）和與環境交互的 agent 是相同的，即 agent 一邊和環境互動，一邊學習...

AI共學社群

兩種策略：on-policy 和 off-policy：所謂 on-policy 指學習的 agent（即actor）和與環境交互的 agent 是相同的，即 agent 一邊和環境互動，一邊學習；而 off-policy 指學習的 agent 與環境交互的 agent 是不同的，即 agent 通過看別人玩遊戲來學習。注：RL 中的 actor/agent 概念和 policy 概念其實有時候會指代同一個東西。因為 policy 即是 actor 要學習的策略，並在是在學習以後用來生成 action 的依據。 actor/policy 都可以代表一個網絡/函數，一個用來生成 action 的網絡/函數。所以有時對二者不加以嚴格區分。影片內容 pdf：http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf