今天的內容會帶大家了解
Gradient Descent 的數學定義與程式樣貌
Item-1:在訓練神經網絡的時候,通常在訓練剛開始的時候使用較大的 learning rate
隨著訓練的進行,我們會慢慢的減小 learning rate
學習率較小時,收斂到極值的速度較慢
學習率較大時,容易在搜索過程中發生震盪
Item-2:隨著 iteration 改變 Learning
衰減越大,學習率衰減地越快。 衰減確實能夠對震盪起到減緩的作用
Item-3:如果上一次的 momentum 與這一次的負梯度方向是相同的
那這次下降的幅度就會加大,所以這樣做能夠達到加速收斂的過程
如果上一次的 momentum 與這一次的負梯度方向是相反的
那這次下降的幅度就會縮減,所以這樣做能夠達到減速收斂的過程
有了大概的理解之後,我們開始今天的學習吧!!!