Loading...

請問為什麼篩選了高重要性特徵後，模型預測正確性反而不如原始資料? - Cupoy

已經restart很多次，使用原始資料所得到的正確性，都比篩選了高重要性特徵後的資料高，想請問是什麼...

AI共學社群

請問為什麼篩選了高重要性特徵後，模型預測正確性反而不如原始資料?

2019/09/28 下午 06:33

機器學習共學討論版

林修德

觀看數：31

回答數：2

收藏數：0

已經restart很多次，使用原始資料所得到的正確性，都比篩選了高重要性特徵後的資料高，想請問是什麼原因（感覺很像做白工XD）

回答列表

2019/09/28 下午 07:54

陳明佑 (Ming You Chen)

贊同數：1

不贊同數：1

留言數：1

特徵重要性, 是描述特徵影響力由高到低的一個排列方式

篩選特徵後, 因為使用特徵較少, 可以提高泛化能力(對外部資料的預測力)

但特徵要刪到幾個才算足夠, 這並不是特徵重要性能告訴你的

特徵刪到幾個才夠, 看的是資料量

如果資料筆數不少(例如課程的例題),

那麼有可能在刪除較不重要的特徵後, 發生預測力下降的情況

但是如果是281個特徵, 卻只有180筆資料這種極端的狀況

特徵一定要刪除到剩下夠少, 泛化能力才會足夠
2019/09/30 上午 00:00

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

「如果再進一步篩選特徵，導致特徵過少時，可能反而因為特徵不夠，造成預測能力下降」

=> 這樣理解是對的哦！現在比較主流的做法會是先盡可能考慮多一點特徵。