對某欄位作LabelEncoding後其他欄位的相關度都提高了,是為什麼?
2019/09/30 00:18 上午
機器學習共學討論版
Ma Chao Ting
觀看數:54
回答數:2
收藏數:1
ml100-3
ml100-3-d30
在D30的實作作業中
我先對想作群聚編碼的column作了Label Encoding
但在這當中我觀察到所有欄位的目標特徵的相關度都變高了
代碼如下:
print(df2.corr())
# 取一個類別型欄位, 與一個數值型欄位, 做群聚編碼
gby = 'Sex'
gbyV = 'Age'
# 對照組 : 標籤編碼 + 邏輯斯迴歸
df2[gby] = df2[gby].fillna('None')
df2[gby + '_Lab'] = LabelEncoder().fit_transform(df2[gby])
df2[df2[gbyV].isnull()] = df2[gbyV].mean()
print(df2.corr())
回傳:
想請教這是為何??