Loading...

【QA】強化學習裡頭的回合更新、單步驟更新是什麼? - Cupoy

在強化學習模型的訓練過程中，更新模型參數的方式有兩種，一種是回合更新，另一種是單步更新。我想跟大家討...

AI共學社群

【QA】強化學習裡頭的回合更新、單步驟更新是什麼?

2021/09/15 下午 08:41

機器學習共學討論版

Chili

觀看數：52

回答數：1

收藏數：0

在強化學習模型的訓練過程中，更新模型參數的方式有兩種，一種是回合更新，另一種是單步更新。我想跟大家討論一下，兩個更新方式的不同之處，以及分別應用於哪些強化學習的演算法中。

回答列表

2021/09/15 下午 08:56

Chili

贊同數：0

不贊同數：0

留言數：0

# 回合更新(Monte-Carlo update) vs 單步更新(Temporal-Difference update) 就像是玩遊戲，回合更新指的是在一個遊戲回合之後才進行參數更新，單步更新指的是在每一步進行參數更新。實際上，在訓練模型的時候，會傾向於選擇可以單步更新的模型，因為單步更新的效率比回合更新要高一些。 --- * (fs>24:**回合更新(Monte-Carlo update)：**24:**單步更新(Temporal-Difference update)：**