logo
Loading...

【QA】 PPO 如何讓強化學習從On policy 到Off policy? - Cupoy

PPO(Proximal Policy Optimization)是OpenAI在強化學習上預設使用...

【QA】 PPO 如何讓強化學習從On policy 到Off policy?

2021/09/15 下午 08:34
機器學習共學討論版
Chili
觀看數:7
回答數:1
收藏數:0

PPO(Proximal Policy Optimization)是OpenAI在強化學習上預設使用的演算法,也是Policy Gradient 的延伸,因此我們一起來看看相較於Policy Gradient,他是如何提高訓練效率的。

回答列表

  • 2021/09/15 下午 08:38
    Chili
    贊同數:0
    不贊同數:0
    留言數:0

    # On-policy vs. Off-policy: 要了解PPO前我們先來了解何為on-policy 與off-policy * On-policy:和環境互動的Agent 與訓練的Agent 為同一個 * Off-policy:和環境互動的Agent 與訓練的Agent 不為同一個 用擬人的例子來說,on-policy 就像是一個人邊做邊學,off-policy為一個人在旁邊看別人玩,自己默默地學習。 之前提過的Policy Gradient 就是on-policy 的例子。 --- # 那為什麼需要從On-policy 變成Off-policy 呢? 答案是因為可以提升模型訓練的效率,當做Policy Gradient 時,會花很多時間在sample data,因為所有的資料都只能更新參數一次,更新一次之後就要重新sample。 而我們用Off-policy 時,我們可以用參數θ′收集到的資料來訓練參數θ,這意味著我們可以重覆的利用這些資料來更新參數θ多次,效率上可以提升不少。 --- # 該如何讓On-policy 變成Off-policy呢? 簡單來說,我們透過(fs>24:**Importance Sampling**