logo
Loading...

請問為什麼篩選了高重要性特徵後,模型預測正確性反而不如原始資料? - Cupoy

已經restart很多次,使用原始資料所得到的正確性,都比篩選了高重要性特徵後的資料高,想請問是什麼...

請問為什麼篩選了高重要性特徵後,模型預測正確性反而不如原始資料?

2019/09/28 下午 06:33
機器學習共學討論版
林修德
觀看數:31
回答數:2
收藏數:0

已經restart很多次,使用原始資料所得到的正確性,都比篩選了高重要性特徵後的資料高,想請問是什麼原因(感覺很像做白工XD)

回答列表

  • 2019/09/28 下午 07:54
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:1
    留言數:1

    特徵重要性, 是描述特徵影響力由高到低的一個排列方式

    篩選特徵後, 因為使用特徵較少, 可以提高泛化能力(對外部資料的預測力)

    但特徵要刪到幾個才算足夠, 這並不是特徵重要性能告訴你的


    特徵刪到幾個才夠, 看的是資料量

    如果資料筆數不少(例如課程的例題), 

    那麼有可能在刪除較不重要的特徵後, 發生預測力下降的情況

    但是如果是281個特徵, 卻只有180筆資料這種極端的狀況

    特徵一定要刪除到剩下夠少, 泛化能力才會足夠

  • 2019/09/30 上午 00:00
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    如果再進一步篩選特徵,導致特徵過少時,可能反而因為特徵不夠,造成預測能力下降


    => 這樣理解是對的哦!現在比較主流的做法會是先盡可能考慮多一點特徵。