logo
Loading...

Outlier判斷問題 - Cupoy

請問如果資料原本的分布是屬於雙峰,這樣的情況下zscore及IQR依然適合用來判別outlier嗎?...

ml100-2,outlier,ml100-2-d06

Outlier判斷問題

2019/04/29 下午 08:31
機器學習共學討論版
陳醇潔
觀看數:19
回答數:3
收藏數:0
ml100-2
outlier
ml100-2-d06

請問如果資料原本的分布是屬於雙峰,這樣的情況下zscore及IQR依然適合用來判別outlier嗎?或是有其他更適合的方式呢?

回答列表

  • 2019/04/29 下午 10:59
    Seanyu.TW
    贊同數:3
    不贊同數:0
    留言數:0

    Hi 你的問題非常的好,一般我們常用來偵測 outliers 的方法多半只適用於單峰分布 (而且多數甚至有常態假設)。在某些特殊的分布,比如你這裡提到的雙峰分布,一直以來的探討是沒有制式方法來抓 outliers,你可以參考 http://r.789695.n4.nabble.com/Outlier-detection-in-bimodal-distribution-td2302316.html 的討論串。

  • 2019/04/29 下午 11:00
    Seanyu.TW
    贊同數:3
    不贊同數:0
    留言數:0

    所以在通常在非典型的分布下,要決定一個值是否為 outliers 就通常取決於 domain knowledge 以及透過視覺化的方法來決定它是否為異常值。

  • 2019/04/29 下午 11:01
    Seanyu.TW
    贊同數:2
    不贊同數:0
    留言數:0

    另外,在後面的課程中也會提到假如你懷疑某些點可能是異常值的話,不妨新造一個欄位,給它一個 tag,讓後面的機器學習幫你決定這個資訊是否重要。

    希望以上回覆有幫助到你唷 :)