特徵具共線性問題
2019/07/06 下午 07:01
機器學習共學討論版
江慶磊
觀看數:29
回答數:3
收藏數:0
ml100-2
若特徵彼此間具共線性(約10個特徵),且對目標特徵也有相對高的關聯性因此不考慮捨去(10個特徵對目標特徵的關聯性皆差不多),但只留10個特徵中的其中1個的預測效果比10個全放還差,請問有建議作法嘛。
回答列表
-
2019/07/07 上午 10:39Benjamin Shao贊同數:0不贊同數:0留言數:0
PCA?
-
2019/07/07 下午 11:43Jimmy贊同數:2不贊同數:0留言數:2
Hi 慶磊!
這時候當然是要使用對特徵共線性比較 robust 的 tree-based 模型囉! 如 Random forest 或 Gradient boosting machine 都可以嘗試看看
-
2019/07/15 下午 02:23張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
主要應該是兩條路:
1. 從模型下手:使用非距離計算的方式來避免共線性問題(例如 Jimmy 專家講的樹)
2. 從資料下手:將特徵整併或轉換維度將共線性的問題抽離(例如 Benjamin 提出的 PCA)