Outlier判斷問題
2019/04/29 下午 08:31 
			機器學習共學討論版
			陳醇潔
			觀看數:19
            回答數:3
            收藏數:0
                ml100-2 
                outlier 
                ml100-2-d06 
            請問如果資料原本的分布是屬於雙峰,這樣的情況下zscore及IQR依然適合用來判別outlier嗎?或是有其他更適合的方式呢?
回答列表
- 
            2019/04/29 下午 10:59Seanyu.TW贊同數:3不贊同數:0留言數:0
Hi 你的問題非常的好,一般我們常用來偵測 outliers 的方法多半只適用於單峰分布 (而且多數甚至有常態假設)。在某些特殊的分布,比如你這裡提到的雙峰分布,一直以來的探討是沒有制式方法來抓 outliers,你可以參考 http://r.789695.n4.nabble.com/Outlier-detection-in-bimodal-distribution-td2302316.html 的討論串。
 - 
            2019/04/29 下午 11:00Seanyu.TW贊同數:3不贊同數:0留言數:0
所以在通常在非典型的分布下,要決定一個值是否為 outliers 就通常取決於 domain knowledge 以及透過視覺化的方法來決定它是否為異常值。
 - 
            2019/04/29 下午 11:01Seanyu.TW贊同數:2不贊同數:0留言數:0
另外,在後面的課程中也會提到假如你懷疑某些點可能是異常值的話,不妨新造一個欄位,給它一個 tag,讓後面的機器學習幫你決定這個資訊是否重要。
希望以上回覆有幫助到你唷 :)
 
