請問為什麼篩選了高重要性特徵後,模型預測正確性反而不如原始資料?
2019/09/28 下午 06:33
機器學習共學討論版
林修德
觀看數:31
回答數:2
收藏數:0
已經restart很多次,使用原始資料所得到的正確性,都比篩選了高重要性特徵後的資料高,想請問是什麼原因(感覺很像做白工XD)
回答列表
-
2019/09/28 下午 07:54陳明佑 (Ming You Chen)贊同數:1不贊同數:1留言數:1
特徵重要性, 是描述特徵影響力由高到低的一個排列方式
篩選特徵後, 因為使用特徵較少, 可以提高泛化能力(對外部資料的預測力)
但特徵要刪到幾個才算足夠, 這並不是特徵重要性能告訴你的
特徵刪到幾個才夠, 看的是資料量
如果資料筆數不少(例如課程的例題),
那麼有可能在刪除較不重要的特徵後, 發生預測力下降的情況
但是如果是281個特徵, 卻只有180筆資料這種極端的狀況
特徵一定要刪除到剩下夠少, 泛化能力才會足夠
-
2019/09/30 上午 00:00張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
「如果再進一步篩選特徵,導致特徵過少時,可能反而因為特徵不夠,造成預測能力下降」
=> 這樣理解是對的哦!現在比較主流的做法會是先盡可能考慮多一點特徵。