logo
Loading...

對某欄位作LabelEncoding後其他欄位的相關度都提高了,是為什麼? - Cupoy

在D30的實作作業中我先對想作群聚編碼的column作了Label Encoding但在這當中我觀察...

ml100-3,ml100-3-d30

對某欄位作LabelEncoding後其他欄位的相關度都提高了,是為什麼?

2019/09/29 04:18 PM
機器學習新手論壇
Ma Chao Ting
觀看數:0
回答數:2
收藏數:1
ml100-3
ml100-3-d30

在D30的實作作業中

我先對想作群聚編碼的column作了Label Encoding

但在這當中我觀察到所有欄位的目標特徵的相關度都變高了

代碼如下:

print(df2.corr())

# 取一個類別型欄位, 與一個數值型欄位, 做群聚編碼

gby = 'Sex'

gbyV = 'Age'

# 對照組 : 標籤編碼 + 邏輯斯迴歸

df2[gby] = df2[gby].fillna('None')

df2[gby + '_Lab'] =  LabelEncoder().fit_transform(df2[gby])

df2[df2[gbyV].isnull()] = df2[gbyV].mean()

print(df2.corr())


回傳:

想請教這是為何??