logo
Loading...

D23 中均值編碼的 model 如何作 預測? - Cupoy

D23中利用 target ("Survived") 作均值編碼, training set 沒問題...

ml100-2,ml100-2-d23

D23 中均值編碼的 model 如何作 預測?

2019/05/28 上午 00:37
機器學習共學討論版
WenChun Huang
觀看數:36
回答數:2
收藏數:0
ml100-2
ml100-2-d23

D23中利用 target ("Survived") 作均值編碼, training set 沒問題, 但是作預測時, test set 並沒有 target column, 如何來作均值編碼, 並作 Survived 機率的預測?

回答列表

  • 2019/05/28 上午 10:23
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:2

    嗨,我們先參考投影片:



    關鍵是取代原本的類別型特徵,所以我們是用原本資料的標籤對特徵的關係進行編碼,再利用這個編碼的結果套用到測試資料上。

  • 2019/05/29 上午 10:48
    張維元 (WeiYuan)
    贊同數:3
    不贊同數:1
    留言數:1

    2. 可是如果以 Name 來說, 如果test set 中出現了 Training set 沒見過的名字, 那如何用均值取代呢?


    => 這是一個問題,不過我們一般會說 training set 和 test set 來自同一個分布,利用 training set 找出 X 跟 y 關係。那如果你有一個未出現在 training 的欄位資料,那模型應該永遠都學不到,所以可以 testing 中的這個欄位資料當成 missing 可能會比較適合。