Loading...

在葉編碼中，不了解切分資料集為何要切成三分? - Cupoy

如圖所示範例中，提到用train資料集訓練梯度提升樹，再用val資料集訓練邏輯思回歸，不太了解為什麼...

ml100,ml100-d32

在葉編碼中，不了解切分資料集為何要切成三分?

2020/08/05 下午 05:42

分類型特徵優化 - 葉編碼

謝政哲

觀看數：27

回答數：2

收藏數：0

ml100

ml100-d32

如圖所示範例中，提到用train資料集訓練梯度提升樹，再用val資料集訓練邏輯思回歸，不太了解為什麼不用同一份資料訓練就好?

程式碼中先用了train資料集fit梯度提升樹，之後對其做one hot encoding，這邊都可以理解，但要fit羅吉斯回歸時，就用了另外一份資料集val，不太懂為什麼要這要操作?

https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html#example-ensemble-plot-feature-transformation-py

上述的網址中有講會overfitting，但不理解為何這樣操作會overfitting，請問有較詳盡的解釋嗎?

回答列表

2020/08/10 下午 05:39

CUPOY

贊同數：0

不贊同數：1

留言數：0

哈囉～親愛的同學好

已將您的提問通知專家了～還請再等候一下回覆，非常感謝！
2020/08/10 下午 06:31

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

如圖所示範例中，提到用train資料集訓練梯度提升樹，再用val資料集訓練邏輯思回歸，不太了解為什麼不用同一份資料訓練就好?

=> 避免模型太貼近訓練資料。在現實生活中，訓練資料只是所有資料中的一部分，我們真正想要學習的是「所有資料」，因此避免資料太貼近於訓練資料，因此我們會習慣從所有資料中取出多份的訓練資料，有些當成驗證資料來避免太趨近於單一的訓練資料。

如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕，也可以追蹤我的GITHUB 帳號。若還有問題的話，也歡迎再開一個新的問題繼續發問，或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個社群活動：學員限定！CUPOY 馬拉松線上小聚 👨🏻‍💻👨🏻‍💻，歡迎一起來玩玩！