logo
Loading...

Outlier 的處理 - Cupoy

Outlier 是否要每個特徵檢查,還是可以用IQR方法 來統一刪除?[((df < (Q1 - 1...

ml100-3,ml100-3-d51

Outlier 的處理

2019/10/24 下午 03:49
機器學習共學討論版
William Mok
觀看數:58
回答數:2
收藏數:0
ml100-3
ml100-3-d51

Outlier 是否要每個特徵檢查,還是可以用IQR方法 來統一刪除?

[((df < (Q1 - 1.5 * IQR)) |(df > (Q3 + 1.5 * IQR))).any(axis=1)]

但刪除後,只剩下好小數據。

回答列表

  • 2019/10/29 下午 09:51
    William
    贊同數:0
    不贊同數:0
    留言數:0

    若是誤植或缺值直接刪掉倒是沒問題,但outlier的移除要審慎評估,可以先做個探索性資料分析,觀察資料特性,畢竟離群值本身可能隱含了重要意義,另外deep learning處理特徵的能力強,可以先保留離群值訓練模型,若模型真的有問題再做審慎評估刪除離群值的動作。

  • 2019/10/29 下午 11:05
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    建議還是要從資料去看,有時候刪除太多反而會失去重要的資訊。