logo
Loading...

特徵具共線性問題 - Cupoy

若特徵彼此間具共線性(約10個特徵),且對目標特徵也有相對高的關聯性因此不考慮捨去(10個特徵對目標...

ml100-2

特徵具共線性問題

2019/07/06 下午 07:01
機器學習共學討論版
江慶磊
觀看數:29
回答數:3
收藏數:0
ml100-2

若特徵彼此間具共線性(約10個特徵),且對目標特徵也有相對高的關聯性因此不考慮捨去(10個特徵對目標特徵的關聯性皆差不多),但只留10個特徵中的其中1個的預測效果比10個全放還差,請問有建議作法嘛。

回答列表

  • 2019/07/07 上午 10:39
    Benjamin Shao
    贊同數:0
    不贊同數:0
    留言數:0

    PCA?

  • 2019/07/07 下午 11:43
    Jimmy
    贊同數:2
    不贊同數:0
    留言數:2

    Hi 慶磊!


    這時候當然是要使用對特徵共線性比較 robust 的 tree-based 模型囉! 如 Random forest 或 Gradient boosting machine 都可以嘗試看看

  • 2019/07/15 下午 02:23
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    主要應該是兩條路:


    1. 從模型下手:使用非距離計算的方式來避免共線性問題(例如 Jimmy 專家講的樹)

    2. 從資料下手:將特徵整併或轉換維度將共線性的問題抽離(例如 Benjamin 提出的 PCA)