李宏毅_強化學習（Reinforce Learning）

Policy Gradient (Review)

PPO是 Policy Gradient 的變形，先複習 Policy Gradient。 policy gradient的基本組成： Policy Gradient 中的 Basic Components 有三個：actor、environment、reward function。其中 env 和 reward function 是你不能控制的，你只能控制actor。 Policy of Actor： actor 的 policy 決定了 actor 的行為，policy 是一個由參數表示的網絡。網絡的輸入是 machine 的所見（observation），用vector 或 matrix 表示。網絡的輸出是 machine 採取的行為。影片內容 pdf：http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf

Proximal Policy Optimization (PPO)

兩種策略：on-policy 和 off-policy：所謂 on-policy 指學習的 agent（即actor）和與環境交互的 agent 是相同的，即 agent 一邊和環境互動，一邊學習；而 off-policy 指學習的 agent 與環境交互的 agent 是不同的，即 agent 通過看別人玩遊戲來學習。注：RL 中的 actor/agent 概念和 policy 概念其實有時候會指代同一個東西。因為 policy 即是 actor 要學習的策略，並在是在學習以後用來生成 action 的依據。 actor/policy 都可以代表一個網絡/函數，一個用來生成 action 的網絡/函數。所以有時對二者不加以嚴格區分。影片內容 pdf：http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf

Policy Gradient (Review)

Proximal Policy Optimization (PPO)

Q-learning (Basic Idea)

Q-learning (Advanced Tips)

Q-learning (Continuous Action)

Actor-Critic

Sparse Reward

Imitation Learning