logo
Loading...

DAY73梯度下降:學習率越大,所需迭代次數越少嗎? - Cupoy

如題所述,DAY73中作業範例使用0.01的學習率、誤差降到標準以下所用的迭代次數為595;我用0....

gradient descent,梯度下降,機器學習,深度學習,學習率,迭代

DAY73梯度下降:學習率越大,所需迭代次數越少嗎?

2020/11/08 上午 10:29
梯度下降Gradient Descent
Vincent_1231995
觀看數:68
回答數:3
收藏數:0
gradient descent
梯度下降
機器學習
深度學習
學習率
迭代

如題所述,DAY73中作業範例使用0.01的學習率、誤差降到標準以下所用的迭代次數為595;我用0.03的學習率需要迭代213次;而解答中有兩種設定:

1.) lr=0.1, iters=66

2.)lr=0.0001, iters=1


不太理解為何設定這麼小的學習率,竟然能夠只花一次迭代就完成梯度下降?

是否學習率大小和迭代次數之間的關係還須考慮到函數型式呢(如作業是設定對一個二次函數進行GD)?

回答列表

  • 2020/11/09 上午 00:27
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    嗨,


    通常學習率越小,需要的迭代次數就要越多才對。我不太懂原本作業上「lr=0.0001, iters=1」這樣的設定是否是實驗還是指達到最佳解的情況。


    什麼時候會達到最佳解當然會需要看函數的狀況,不過還是會符合「學習率越小,需要的迭代次數就要越多」


    很高興可以在這次問答進行討論,如果還有不懂或是模糊的部分也歡迎持續追問。期待你的互動與鼓勵創造出不同更深度的討論。歡迎加入我自己經營的Line 群組社群,會有不定時舉辦的分享活動,一起來玩玩吧!

  • 2020/11/11 下午 02:41
    Jeffrey
    贊同數:2
    不贊同數:0
    留言數:0

    Hello. 補充說明一下, 其實整個流程是包含: learning rate, iters, batch, epoch.

    基於不同的 dataset, 所需要的次數其實會有些微差異.

    所有的參數都是為了求得最佳的梯度下降.

  • 2020/11/27 上午 11:28
    Mina
    贊同數:0
    不贊同數:0
    留言數:0

    我自己跑完的結果是正常的喔。 後來比對了一下,發現解答的 cur_x = 3 在第一次跑完之後沒有回歸初始值,所以自然承接第一次跑完的解答,跑一次就找到答案。 再請老師確認一下是不是這樣。