logo
Loading...

均值編碼如何對testing data做處理 - Cupoy

我能理解單純就training data做均值編碼,但請問這樣的話要如何對testing data做...

ml100-2,ml100-2-d23,均值編碼

均值編碼如何對testing data做處理

2019/05/10 上午 11:25
機器學習共學討論版
Edwin
觀看數:4
回答數:1
收藏數:0
ml100-2
ml100-2-d23
均值編碼

我能理解單純就training data做均值編碼,

但請問這樣的話要如何對testing data做處理?

因為就作業來說均值編碼需要對output(train_Y) groupby後平均

回答列表

  • 2019/05/13 上午 11:42
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:0
    留言數:0

    因為只有 train 有 Y 值, 因此只能對 train 出現過的類別作平均

    test 資料中, 如果在 train 中有出現過的, 就用 train 的平均結果填入

    沒有出現過的, 就填 train_Y 全部的總平均 (因為沒有更進一步的資訊)


    因為在沒有資訊的情況下, train_Y 全部的總平均, 可以看成一種預設的猜測

    平滑化時, 要往全部的總平均調整, 也是類似的道理