logo
Loading...

箱線圖 boxplot 底下的異常值 - Cupoy

老師您好:我在根據「TARGET」進行分組的「DAYS_EMPLOYED」所畫出來的箱線圖,底部有一...

ml100-3,ml100-3-d15,boxplot

箱線圖 boxplot 底下的異常值

2019/09/10 01:56 PM
機器學習新手論壇
Wei-po Tsai
觀看數:0
回答數:1
收藏數:0
ml100-3
ml100-3-d15
boxplot

老師您好:


我在根據「TARGET」進行分組的「DAYS_EMPLOYED」所畫出來的箱線圖,

底部有一條粗線,如下圖紅框處:

我使用了以下方法進行檢查:

1. 使用describe()函數:

TARGET在數值為0的分組中,「DAYS_EMPLOYED」的最小值是–17912,我查了一下資料,在1.5(四分位差)以外的數值,在箱線圖當中會被判定為「異常值」。


2. 使用hist()繪製出柱狀圖:

大致上可以看出,-7500~-17500的數值,數量稀少。



問題一:

粗線應該是代表一串「異常值」的意思,請問我的理解正確嗎?


問題二:

–17912 ÷ (–365天) = 49年,這樣的數字在我看來,不算非常不合理,所以想請問此數據在往後機器學習的訓練當中,是不是應該予以保留,還是建議刪除?謝謝!


=========================================

以上的程式碼連結:原始程式碼連結


參考資料:https://wiki.mbalib.com/zh-tw/箱线图

=========================================