logo
Loading...

箱線圖 boxplot 底下的異常值 - Cupoy

老師您好:我在根據「TARGET」進行分組的「DAYS_EMPLOYED」所畫出來的箱線圖,底部有一...

ml100-3,ml100-3-d15,boxplot

箱線圖 boxplot 底下的異常值

2019/09/10 下午 09:56
機器學習共學討論版
Wei-po Tsai
觀看數:107
回答數:1
收藏數:0
ml100-3
ml100-3-d15
boxplot

老師您好:


我在根據「TARGET」進行分組的「DAYS_EMPLOYED」所畫出來的箱線圖,

底部有一條粗線,如下圖紅框處:

我使用了以下方法進行檢查:

1. 使用describe()函數:

TARGET在數值為0的分組中,「DAYS_EMPLOYED」的最小值是–17912,我查了一下資料,在1.5(四分位差)以外的數值,在箱線圖當中會被判定為「異常值」。


2. 使用hist()繪製出柱狀圖:

大致上可以看出,-7500~-17500的數值,數量稀少。



問題一:

粗線應該是代表一串「異常值」的意思,請問我的理解正確嗎?


問題二:

–17912 ÷ (–365天) = 49年,這樣的數字在我看來,不算非常不合理,所以想請問此數據在往後機器學習的訓練當中,是不是應該予以保留,還是建議刪除?謝謝!


=========================================

以上的程式碼連結:原始程式碼連結


參考資料:https://wiki.mbalib.com/zh-tw/箱线图

=========================================

回答列表

  • 2019/09/11 上午 10:23
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:2

    粗線應該是代表一串「異常值」的意思,請問我的理解正確嗎?


    => 相形圖上下的兩條水平線代表最大最小觀測值(Q1 ± 1.5*IQR),在統計中很常會把這個當成是異常值的邊界,所以你的理解是正確的。不過如果根據資料的特性,你也可以把異常值的邊界放寬。


    問題二:是不是應該予以保留,還是建議刪除


    => 我通常都是先建議保留,根據結果再觀察:)