logo
Loading...

【QA】強化學習裡頭的回合更新、單步驟更新是什麼? - Cupoy

在強化學習模型的訓練過程中,更新模型參數的方式有兩種,一種是回合更新,另一種是單步更新。我想跟大家討...

【QA】強化學習裡頭的回合更新、單步驟更新是什麼?

2021/09/15 下午 08:41
機器學習共學討論版
Chili
觀看數:5
回答數:1
收藏數:0

在強化學習模型的訓練過程中,更新模型參數的方式有兩種,一種是回合更新,另一種是單步更新。我想跟大家討論一下,兩個更新方式的不同之處,以及分別應用於哪些強化學習的演算法中。

回答列表

  • 2021/09/15 下午 08:56
    Chili
    贊同數:0
    不贊同數:0
    留言數:0

    # 回合更新(Monte-Carlo update) vs 單步更新(Temporal-Difference update) 就像是玩遊戲,回合更新指的是在一個遊戲回合之後才進行參數更新,單步更新指的是在每一步進行參數更新。 實際上,在訓練模型的時候,會傾向於選擇可以單步更新的模型,因為單步更新的效率比回合更新要高一些。 --- * (fs>24:**回合更新(Monte-Carlo update):**24:**單步更新(Temporal-Difference update):**