對某欄位作LabelEncoding後其他欄位的相關度都提高了，是為什麼?

2019/09/30 上午 00:18

機器學習共學討論版

Ma Chao Ting

觀看數：59

回答數：2

收藏數：1

ml100-3

ml100-3-d30

在D30的實作作業中

我先對想作群聚編碼的column作了Label Encoding

但在這當中我觀察到所有欄位的目標特徵的相關度都變高了

代碼如下:

print(df2.corr())

# 取一個類別型欄位, 與一個數值型欄位, 做群聚編碼

gby = 'Sex'

gbyV = 'Age'

# 對照組 : 標籤編碼 + 邏輯斯迴歸

df2[gby] = df2[gby].fillna('None')

df2[gby + '_Lab'] = LabelEncoder().fit_transform(df2[gby])

df2[df2[gbyV].isnull()] = df2[gbyV].mean()

print(df2.corr())

回傳:

想請教這是為何??