均值編碼交叉驗證問題
2019/05/12 下午 03:54
機器學習共學討論版
陳醇潔
觀看數:5
回答數:1
收藏數:0
ml100-2
ml100-2-d23
在範例中是直接對整個train的資料下去做均值編碼,這樣在做cross_val_score時,驗證的那份資料的Y也有下去平均,這樣是否代表驗證的這份資料的資訊也被放進去了?在做均值編碼時先排除驗證的那份資料再下去平均會不會更好呢?
回答列表
-
2019/05/13 上午 02:00張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
嚴格來說這麼做是比較嚴謹,真的做到「不使用測試資料的資訊」,不過實際上影響結果好壞很難說。