[D06] one-hot encoding 用於回歸模型中高度共線性問題
2019/09/20 上午 01:59
機器學習共學討論版
劉怡安
觀看數:35
回答數:1
收藏數:0
ml100-3
ml100-3-d06
使用pd.get_dummies的編碼方式會將原有N個水準的類別型欄位轉換成N個欄位,請問該編碼方式用於回歸模型是否會產生高度共線性問題?
因為正常來說虛擬變數為N-1或是採用無截距的回歸模型才能規避虛擬變數陷阱。
回答列表
-
2019/09/20 上午 10:09張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
使用pd.get_dummies的編碼方式會將原有N個水準的類別型欄位轉換成N個欄位,請問該編碼方式用於回歸模型是否會產生高度共線性問題?
=> 會哦,通常我們會去掉原本的第一個欄位:
```
pd.get_dummies(..., drop_first=True)
```