DAY73梯度下降:學習率越大,所需迭代次數越少嗎?
2020/11/08 上午 10:29
梯度下降Gradient Descent
Vincent_1231995
觀看數:68
回答數:3
收藏數:0
gradient descent
梯度下降
機器學習
深度學習
學習率
迭代
如題所述,DAY73中作業範例使用0.01的學習率、誤差降到標準以下所用的迭代次數為595;我用0.03的學習率需要迭代213次;而解答中有兩種設定:
1.) lr=0.1, iters=66
2.)lr=0.0001, iters=1
不太理解為何設定這麼小的學習率,竟然能夠只花一次迭代就完成梯度下降?
是否學習率大小和迭代次數之間的關係還須考慮到函數型式呢(如作業是設定對一個二次函數進行GD)?
回答列表
-
2020/11/09 上午 00:27張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
嗨,
通常學習率越小,需要的迭代次數就要越多才對。我不太懂原本作業上「lr=0.0001, iters=1」這樣的設定是否是實驗還是指達到最佳解的情況。
什麼時候會達到最佳解當然會需要看函數的狀況,不過還是會符合「學習率越小,需要的迭代次數就要越多」
很高興可以在這次問答進行討論,如果還有不懂或是模糊的部分也歡迎持續追問。期待你的互動與鼓勵創造出不同更深度的討論。歡迎加入我自己經營的Line 群組社群,會有不定時舉辦的分享活動,一起來玩玩吧!
-
2020/11/11 下午 02:41Jeffrey贊同數:2不贊同數:0留言數:0
Hello. 補充說明一下, 其實整個流程是包含: learning rate, iters, batch, epoch.
基於不同的 dataset, 所需要的次數其實會有些微差異.
所有的參數都是為了求得最佳的梯度下降.
-
2020/11/27 上午 11:28Mina贊同數:0不贊同數:0留言數:0
我自己跑完的結果是正常的喔。 後來比對了一下,發現解答的 cur_x = 3 在第一次跑完之後沒有回歸初始值,所以自然承接第一次跑完的解答,跑一次就找到答案。 再請老師確認一下是不是這樣。