【QA】學習率(Learning rate)高低對梯度下降的影響 ?
學習率是一個常見的超參數,也就是說需要我們人工進行調整的,大家可以根據經驗法則,或是前人的智慧 ,作為一開始的預設值,並依據模型的表現在進行挑整。那究竟學習率的高低,個別在模型表現上,會有怎麼樣的影響呢?我想在下面跟大家討論一下。
回答列表
-
2021/08/25 上午 11:36Chili贊同數:0不贊同數:0留言數:0
 從公式中我們可以得知,學習率大小可以直接影響到模型速度到收斂到局部最優解的速度,學習率越大,神經網路的學習速度越快。但學習率太大或是太小,都會產生問題。 ---  * 學習率過小: 如果學習率過小,神經網路不只收斂的速度會非常慢,並且有可能會陷入局部最優解的僵局,走不出來。 * 學習率過大: 當學習率過大時,收斂幅度太大,超過極值,Loss就會停止下降,並在同一個Loss值反覆震盪,達不到最小值的位置。 --- 我們可以把學習率想像成,一螞蟻走路時的步伐。假如有一個甜食放置於一碗中,需要走到最下面才能吃到,而當學習率太小時,螞蟻走的步伐過小,到達碗底的速度會變得非常久,這是我們不樂意見到的。反觀螞蟻步伐過大時,就好像擁有超長的腳,每跨一步就會到達碗的另一側,永遠達不到最底點的狀態。  --- * 參考資料 https://www.youtube.com/watch?v=9sJG7LjGCnI&list=PLXO45tsB95cJ0U2DKySDmhRqQI9IaGxck&index=5
