Loading...

DAY73梯度下降:學習率越大，所需迭代次數越少嗎? - Cupoy

如題所述，DAY73中作業範例使用0.01的學習率、誤差降到標準以下所用的迭代次數為595；我用0....

gradient descent,梯度下降,機器學習,深度學習,學習率,迭代

DAY73梯度下降:學習率越大，所需迭代次數越少嗎?

2020/11/08 上午 10:29

梯度下降Gradient Descent

Vincent_1231995

觀看數：68

回答數：3

收藏數：0

gradient descent

梯度下降

機器學習

深度學習

學習率

迭代

如題所述，DAY73中作業範例使用0.01的學習率、誤差降到標準以下所用的迭代次數為595；我用0.03的學習率需要迭代213次；而解答中有兩種設定:

1.) lr=0.1, iters=66

2.)lr=0.0001, iters=1

不太理解為何設定這麼小的學習率，竟然能夠只花一次迭代就完成梯度下降?

是否學習率大小和迭代次數之間的關係還須考慮到函數型式呢(如作業是設定對一個二次函數進行GD)?

回答列表

2020/11/09 上午 00:27

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

嗨，

通常學習率越小，需要的迭代次數就要越多才對。我不太懂原本作業上「lr=0.0001, iters=1」這樣的設定是否是實驗還是指達到最佳解的情況。

什麼時候會達到最佳解當然會需要看函數的狀況，不過還是會符合「學習率越小，需要的迭代次數就要越多」

很高興可以在這次問答進行討論，如果還有不懂或是模糊的部分也歡迎持續追問。期待你的互動與鼓勵創造出不同更深度的討論。歡迎加入我自己經營的Line 群組社群，會有不定時舉辦的分享活動，一起來玩玩吧！
2020/11/11 下午 02:41

Jeffrey

贊同數：2

不贊同數：0

留言數：0

Hello. 補充說明一下, 其實整個流程是包含: learning rate, iters, batch, epoch.

基於不同的 dataset, 所需要的次數其實會有些微差異.

所有的參數都是為了求得最佳的梯度下降.
2020/11/27 上午 11:28

Mina

贊同數：0

不贊同數：0

留言數：0

我自己跑完的結果是正常的喔。後來比對了一下，發現解答的 cur_x = 3 在第一次跑完之後沒有回歸初始值，所以自然承接第一次跑完的解答，跑一次就找到答案。再請老師確認一下是不是這樣。