Loading...

【QA】什麼是強化學習的Actor – Critic 演算法? - Cupoy

Actor Critic 是結合Policy Gradient與Ｑ-learning 兩者優點，演變...

AI共學社群

【QA】什麼是強化學習的Actor – Critic 演算法?

2021/09/22 下午 08:38

機器學習共學討論版

Chili

觀看數：1626

回答數：1

收藏數：0

Actor Critic 是結合Policy Gradient與Ｑ-learning 兩者優點，演變出的演算法，在強化學習中也是重要的演算法之一，接下來我想跟大家簡單的了解一下這個主題。

回答列表

2021/09/22 下午 08:39

Chili

贊同數：0

不贊同數：0

留言數：0

* What is Actor-Critic : 在一般的強化學習中有兩種訓練的Network，其一為Policy network，輸入state預測每個Action 的機率，例如：Policy Gradient就是如此；另一種為Value Network，預測State Value ，例如Q-learning。而Actor-Critic則是結合兩者優點的演算法。 Actor-Critic 剛好可以拆分成兩個部分來看，Actor有Policy Gradient 的影子在裡頭，而Critic 則是Value Network的應用。讓Policy Network 的Actor 來選擇行為Action，而Critic 工作就是要評估Actor 的好壞，預測Actor接下來會得到多少的Reward，而Actor會根據Critic 給的值來更新模型。 ---- 傳統的Policy network是回合更新的，需要完成整個Episode才可以計算獎懲(Reward)，使得模型學習效率不佳。而一般的Q-learning 雖然為單步更新，卻沒有辦法處理連續型的動作，受限於只能訓練非連續型動作的模型。因此將兩著優點結合，使得模型既可以訓練連續型動作，且可以以單步更新的方式進行，使得在訓練上可以更有效率。 --- 關於演算法詳細公式講解可以參考：李宏毅 https://www.youtube.com/watch?v=kk6DqWreLeU 莫凡 https://www.youtube.com/watch?v=HTONz4ZLGxw