Loading...

【QA】 PPO 如何讓強化學習從On policy 到Off policy? - Cupoy

PPO（Proximal Policy Optimization）是OpenAI在強化學習上預設使用...

AI共學社群

【QA】 PPO 如何讓強化學習從On policy 到Off policy?

2021/09/15 下午 08:34

機器學習共學討論版

Chili

觀看數：379

回答數：1

收藏數：0

PPO（Proximal Policy Optimization）是OpenAI在強化學習上預設使用的演算法，也是Policy Gradient 的延伸，因此我們一起來看看相較於Policy Gradient，他是如何提高訓練效率的。

回答列表

2021/09/15 下午 08:38

Chili

贊同數：0

不贊同數：0

留言數：0

# On-policy vs. Off-policy：要了解PPO前我們先來了解何為on-policy 與off-policy * On-policy：和環境互動的Agent 與訓練的Agent 為同一個 * Off-policy：和環境互動的Agent 與訓練的Agent 不為同一個用擬人的例子來說，on-policy 就像是一個人邊做邊學，off-policy為一個人在旁邊看別人玩，自己默默地學習。之前提過的Policy Gradient 就是on-policy 的例子。 --- # 那為什麼需要從On-policy 變成Off-policy 呢？答案是因為可以提升模型訓練的效率，當做Policy Gradient 時，會花很多時間在sample data，因為所有的資料都只能更新參數一次，更新一次之後就要重新sample。而我們用Off-policy 時，我們可以用參數θ′收集到的資料來訓練參數θ，這意味著我們可以重覆的利用這些資料來更新參數θ多次，效率上可以提升不少。 --- # 該如何讓On-policy 變成Off-policy呢？簡單來說，我們透過(fs>24:**Importance Sampling**