Outlier 的處理
2019/10/24 下午 03:49
機器學習共學討論版
William Mok
觀看數:58
回答數:2
收藏數:0
ml100-3
ml100-3-d51
Outlier 是否要每個特徵檢查,還是可以用IQR方法 來統一刪除?
[((df < (Q1 - 1.5 * IQR)) |(df > (Q3 + 1.5 * IQR))).any(axis=1)]
但刪除後,只剩下好小數據。
回答列表
-
2019/10/29 下午 09:51William贊同數:0不贊同數:0留言數:0
若是誤植或缺值直接刪掉倒是沒問題,但outlier的移除要審慎評估,可以先做個探索性資料分析,觀察資料特性,畢竟離群值本身可能隱含了重要意義,另外deep learning處理特徵的能力強,可以先保留離群值訓練模型,若模型真的有問題再做審慎評估刪除離群值的動作。
-
2019/10/29 下午 11:05張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
建議還是要從資料去看,有時候刪除太多反而會失去重要的資訊。