均值編碼如何對testing data做處理
2019/05/10 上午 11:25
機器學習共學討論版
Edwin
觀看數:4
回答數:1
收藏數:0
ml100-2
ml100-2-d23
均值編碼
我能理解單純就training data做均值編碼,
但請問這樣的話要如何對testing data做處理?
因為就作業來說均值編碼需要對output(train_Y) groupby後平均
回答列表
-
2019/05/13 上午 11:42陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:0
因為只有 train 有 Y 值, 因此只能對 train 出現過的類別作平均
test 資料中, 如果在 train 中有出現過的, 就用 train 的平均結果填入
沒有出現過的, 就填 train_Y 全部的總平均 (因為沒有更進一步的資訊)
因為在沒有資訊的情況下, train_Y 全部的總平均, 可以看成一種預設的猜測
平滑化時, 要往全部的總平均調整, 也是類似的道理