在使用均值編碼 + 邏輯斯迴歸執行此行程式時，data = data.drop(['Survived', 'Name_mean', 'Ticket_mean'] , axis=1)為何需刪除Name_mean和Ticket_mean欄位

2019/05/11 下午 00:43

機器學習共學討論版

胡家維

觀看數：6

回答數：1

收藏數：0

ml100-2

ml100-2-d23

在作業均值編碼 + 邏輯斯迴歸中，除了Survived欄位之外，data = data.drop(['Survived', 'Name_mean', 'Ticket_mean'] , axis=1)這行程式碼同時drop Name_mean和Ticket_mean，請問是為什麼呢? 另外，請問這兩個額外的欄位是如何得知的?

回答列表

2019/05/13 上午 02:17

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

會剔除的原因是 Name 與 Ticket 的相異類別數量太大，可能會造成均值編碼的 overfitting 的現象。相關的說明可以參考 @明佑講師之前的回答：https://www.cupoy.com/qa/kwassist/ai_tw/0000016859B07A3A000000CF6375706F795F72656C656173655155455354