logo
Loading...

在葉編碼中,不了解切分資料集為何要切成三分? - Cupoy

如圖所示範例中,提到用train資料集訓練梯度提升樹,再用val資料集訓練邏輯思回歸,不太了解為什麼...

ml100,ml100-d32

在葉編碼中,不了解切分資料集為何要切成三分?

2020/08/05 下午 05:42
分類型特徵優化 - 葉編碼
謝政哲
觀看數:27
回答數:2
收藏數:0
ml100
ml100-d32


如圖所示範例中,提到用train資料集訓練梯度提升樹,再用val資料集訓練邏輯思回歸,不太了解為什麼不用同一份資料訓練就好?

程式碼中先用了train資料集fit梯度提升樹,之後對其做one hot encoding,這邊都可以理解,但要fit羅吉斯回歸時,就用了另外一份資料集val,不太懂為什麼要這要操作?

https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html#example-ensemble-plot-feature-transformation-py

上述的網址中有講會overfitting,但不理解為何這樣操作會overfitting,請問有較詳盡的解釋嗎?

回答列表

  • 2020/08/10 下午 05:39
    CUPOY
    贊同數:0
    不贊同數:1
    留言數:0

    哈囉~親愛的同學好


    已將您的提問通知專家了~還請再等候一下回覆,非常感謝!

  • 2020/08/10 下午 06:31
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    如圖所示範例中,提到用train資料集訓練梯度提升樹,再用val資料集訓練邏輯思回歸,不太了解為什麼不用同一份資料訓練就好?


    => 避免模型太貼近訓練資料。在現實生活中,訓練資料只是所有資料中的一部分,我們真正想要學習的是「所有資料」,因此避免資料太貼近於訓練資料,因此我們會習慣從所有資料中取出多份的訓練資料,有些當成驗證資料來避免太趨近於單一的訓練資料。


    如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個社群活動:學員限定!CUPOY 馬拉松線上小聚 👨🏻‍💻👨🏻‍💻,歡迎一起來玩玩!