logo
Loading...

Confusion about learning curve for linear regression? - Cupoy

我分別對 linear regression、lasso regression、ridge regr...

ml100,ml100-d40

Confusion about learning curve for linear regression?

2020/06/18 下午 09:06
機器學習共學討論版
Yang Wang
觀看數:41
回答數:6
收藏數:2
ml100
ml100-d40

我分別對 linear regression、lasso regression、ridge regression 做 learning curve,得到以下的圖:

這樣是代表 linear regression、lasso regression、ridge regression 都 high bias,也就是代表 underfitting 嗎?

順帶一提,三個模型的 MSE 分別為 41.72、43.63、41.86。

回答列表

  • 2020/06/18 下午 11:38
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    這樣是代表 linear regression、lasso regression、ridge regression 都 high bias,也就是代表 underfitting 嗎?


    => 為什麼會這麼說呢?


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/06/19 上午 02:06
    Yang Wang
    贊同數:0
    不贊同數:0
    留言數:0

    我是從這個[網站](https://martychen920.blogspot.com/2017/11/ml.html)得出來的結論,他最前面說: - high bias 代表 underfitting - high variance 代表 overfitting ![learning curve](https://i.imgur.com/L8VfrGa.png) 作者在 conclusion 的地方說:上圖的部份,可以明確的發現,資料集的增加並未對模型帶來好的效果,並且這是一個高偏差的模型,調整上增加再多的模型也沒有用。

  • 2020/06/19 下午 02:42
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    先補充一下,bias 跟 variance 的定義


    我們可以把誤差分成 bias(偏差)跟 variance (變異)兩種;bias 是指模型用於訓練資料的準確度,variance 則是模型泛化、用於測試資料的準確度。一般來說,當模型變得複雜時,bias 會降低,variance 會提高。


    * 高 bias 誤差通常是因為模型的能力(capacity)不足,未能正確描述訓練資料的平均分佈所造成,此時我們可稱為該模型為擬合不足(underfitting)。在這種情況下,增加訓練實例,並不會提高訓練模型的 performance,唯有增加模型的複雜度方能獲得較佳的 performance。 (reference)

    * 高 variance 則是一個完全相反的情況,起因於過度複雜的參數模型,而導致模型過度記憶訓練實例的模式,而失去 generalization 的能力,也就是大家所熟知的過度擬合(overfitting)。在這種情況下,增加訓練資料或降低模型複雜度都會幫助減緩 overfitting 的情況。(reference)


    Bias-Variance Tradeoff 的意思是,當我們的模型太接近訓練資料造成 Overfitting,此時會產生低偏差、高變異;反之,如果模型的泛化能力不夠的話,對於資料預測效果不好,會成高偏差、低變異。所以必須要在「訓練得像」跟「泛化能力」中去調整,不能跟訓練資料差太遠,又要能準確的預測資料。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/06/19 下午 02:48
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    再回到你的問題「作者在 conclusion 的地方說:上圖的部份,可以明確的發現,資料集的增加並未對模型帶來好的效果,並且這是一個高偏差的模型,調整上增加再多的模型也沒有用。」


    => 從 learning theory 中有提到,一個可學習的問題,bias 會隨著資料量增加而降低。如果從觀察的結果發現,當資料量增加已經不會造成 bias 下降,可能有幾個原因:


    1. 模型不夠強

    2. 欄位不夠可分

    3. 資料的代表性已經足夠

    4. 這不是一個可學習的問題


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/06/19 下午 10:16
    Yang Wang
    贊同數:0
    不贊同數:0
    留言數:0

    那以原圖來看, training score 持續下降且 validation score 持續上升到趨近於 0.7,這要怎麼解釋啊?