在使用均值編碼 + 邏輯斯迴歸執行此行程式時,data = data.drop(['Survived', 'Name_mean', 'Ticket_mean'] , axis=1)為何需刪除Name_mean和Ticket_mean欄位
2019/05/11 下午 00:43
機器學習共學討論版
胡家維
觀看數:6
回答數:1
收藏數:0
ml100-2
ml100-2-d23
在作業均值編碼 + 邏輯斯迴歸中,除了Survived欄位之外,
data
=
data
.
drop
([
'Survived'
,
'Name_mean'
,
'Ticket_mean'
]
,
axis
=
1
)這行程式碼同時drop Name_mean和Ticket_mean,請問是為什麼呢? 另外,請問這兩個額外的欄位是如何得知的?
回答列表
-
2019/05/13 上午 02:17張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
會剔除的原因是 Name 與 Ticket 的相異類別數量太大,可能會造成均值編碼的 overfitting 的現象。相關的說明可以參考 @明佑 講師之前的回答:https://www.cupoy.com/qa/kwassist/ai_tw/0000016859B07A3A000000CF6375706F795F72656C656173655155455354