是否要處理Test Data的Missing Value
2019/10/24 上午 11:40
機器學習共學討論版
江品慧
觀看數:86
回答數:2
收藏數:0
ml100-3
ml100-3-d51
當我們要predict test data時,如果test data也有很多空值 我們也要做preprocessing的動作像是填入0嗎?如果想填入mean或median應該要在test set中填入train set所填入的mean 還是test本身的mean?
回答列表
-
2019/10/24 下午 01:42陳明佑 (Ming You Chen)贊同數:2不贊同數:0留言數:0
填入缺值有個大原則 : 假定 test 資料無法看得到時, 你所能做的處理
所以 test 要填入缺值時, 應該以 train 中的填補方式比照填補
如果 train 中填入平均值, 則 test 也該填入 train 的平均值 (因為假設不知道 test 的 mean)
如果 train 中該欄位空值該填 0, 則 test 也該填 0
-
2019/10/29 下午 11:06張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
1. 必須要處理,不然有空值模型根本不能跑
2. 要考慮的是所有資料的還是測試資料的統計值,我覺得這部分都可以嘗試