D23 中均值編碼的 model 如何作 預測?
2019/05/28 上午 00:37
機器學習共學討論版
WenChun Huang
觀看數:36
回答數:2
收藏數:0
ml100-2
ml100-2-d23
D23中利用 target ("Survived") 作均值編碼, training set 沒問題, 但是作預測時, test set 並沒有 target column, 如何來作均值編碼, 並作 Survived 機率的預測?
回答列表
-
2019/05/28 上午 10:23張維元 (WeiYuan)贊同數:1不贊同數:0留言數:2
嗨,我們先參考投影片:
關鍵是取代原本的類別型特徵,所以我們是用原本資料的標籤對特徵的關係進行編碼,再利用這個編碼的結果套用到測試資料上。
-
2019/05/29 上午 10:48張維元 (WeiYuan)贊同數:3不贊同數:1留言數:1
2. 可是如果以 Name 來說, 如果test set 中出現了 Training set 沒見過的名字, 那如何用均值取代呢?
=> 這是一個問題,不過我們一般會說 training set 和 test set 來自同一個分布,利用 training set 找出 X 跟 y 關係。那如果你有一個未出現在 training 的欄位資料,那模型應該永遠都學不到,所以可以 testing 中的這個欄位資料當成 missing 可能會比較適合。