李宏毅_強化學習(Reinforce Learning)
強化學習 (Reinforce Learning) 什麼是強化學習 尋找一個合適的函數,將觀察到的環境 (environment) 作為輸入,目標是最大化回報 (reward) 從經驗中學習
內容簡介
作者介紹
適合人群
你將會學到什麼
購買須知
-
Deep Reinforcement Learning
介紹強化學習的原理及主要方法。
-
Policy Gradient (Review)
PPO是 Policy Gradient 的變形,先複習 Policy Gradient。 policy gradient的基本組成: Policy Gradient 中的 Basic Components 有三個:actor、environment、reward function。 其中 env 和 reward function 是你不能控制的,你只能控制actor。 Policy of Actor: actor 的 policy 決定了 actor 的行為,policy 是一個由參數 表示的網絡。 網絡的輸入是 machine 的所見(observation),用vector 或 matrix 表示。 網絡的輸出是 machine 採取的行為。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf
-
Proximal Policy Optimization (PPO)
兩種策略:on-policy 和 off-policy: 所謂 on-policy 指學習的 agent(即actor) 和與環境交互的 agent 是相同的,即 agent 一邊和環境互動,一邊學習; 而 off-policy 指學習的 agent 與環境交互的 agent 是不同的,即 agent 通過看別人玩遊戲來學習。 注:RL 中的 actor/agent 概念和 policy 概念其實有時候會指代同一個東西。 因為 policy 即是 actor 要學習的策略,並在是在學習以後用來生成 action 的依據。 actor/policy 都可以代表一個網絡/函數,一個用來生成 action 的網絡/函數。 所以有時對二者不加以嚴格區分。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf
-
Q-learning (Basic Idea)
Q-learning 是 value base 的方法,在這種方法中我們不是要學習一個 policy 網絡,而是要學一個 critic 網絡。 critic 並不採取行為,只是針對現有的 actor π,評價它的好壞。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/QLearning%20(v2).pdf
-
Q-learning (Advanced Tips)
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/QLearning%20(v2).pdf
-
Q-learning (Continuous Action)
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/QLearning%20(v2).pdf
-
Actor-Critic
Critic 是什麼呢? Critic 並不會跟你的訓練過程有直接關係,它要做的是評估一個 Actor 的好壞,好的 Actor 會由 Critic 挑出,Q-learning 就是這樣的方法。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/AC.pdf
-
Sparse Reward
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/Reward%20(v3).pdf
-
Imitation Learning
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/IRL%20(v2).pdf
-