Outlier判斷問題
2019/04/29 下午 08:31
機器學習共學討論版
陳醇潔
觀看數:19
回答數:3
收藏數:0
ml100-2
outlier
ml100-2-d06
請問如果資料原本的分布是屬於雙峰,這樣的情況下zscore及IQR依然適合用來判別outlier嗎?或是有其他更適合的方式呢?
回答列表
-
2019/04/29 下午 10:59Seanyu.TW贊同數:3不贊同數:0留言數:0
Hi 你的問題非常的好,一般我們常用來偵測 outliers 的方法多半只適用於單峰分布 (而且多數甚至有常態假設)。在某些特殊的分布,比如你這裡提到的雙峰分布,一直以來的探討是沒有制式方法來抓 outliers,你可以參考 http://r.789695.n4.nabble.com/Outlier-detection-in-bimodal-distribution-td2302316.html 的討論串。
-
2019/04/29 下午 11:00Seanyu.TW贊同數:3不贊同數:0留言數:0
所以在通常在非典型的分布下,要決定一個值是否為 outliers 就通常取決於 domain knowledge 以及透過視覺化的方法來決定它是否為異常值。
-
2019/04/29 下午 11:01Seanyu.TW贊同數:2不贊同數:0留言數:0
另外,在後面的課程中也會提到假如你懷疑某些點可能是異常值的話,不妨新造一個欄位,給它一個 tag,讓後面的機器學習幫你決定這個資訊是否重要。
希望以上回覆有幫助到你唷 :)