箱線圖 boxplot 底下的異常值
2019/09/10 下午 09:56
機器學習共學討論版
Wei-po Tsai
觀看數:107
回答數:1
收藏數:0
ml100-3
ml100-3-d15
boxplot
老師您好:
我在根據「TARGET」進行分組的「DAYS_EMPLOYED」所畫出來的箱線圖,
底部有一條粗線,如下圖紅框處:
我使用了以下方法進行檢查:
1. 使用describe()函數:
TARGET在數值為0的分組中,「DAYS_EMPLOYED」的最小值是–17912,我查了一下資料,在1.5(四分位差)以外的數值,在箱線圖當中會被判定為「異常值」。
2. 使用hist()繪製出柱狀圖:
大致上可以看出,-7500~-17500的數值,數量稀少。
問題一:
粗線應該是代表一串「異常值」的意思,請問我的理解正確嗎?
問題二:
–17912 ÷ (–365天) = 49年,這樣的數字在我看來,不算非常不合理,所以想請問此數據在往後機器學習的訓練當中,是不是應該予以保留,還是建議刪除?謝謝!
=========================================
以上的程式碼連結:原始程式碼連結
參考資料:https://wiki.mbalib.com/zh-tw/箱线图
=========================================
回答列表
-
2019/09/11 上午 10:23張維元 (WeiYuan)贊同數:2不贊同數:0留言數:2
「粗線應該是代表一串「異常值」的意思,請問我的理解正確嗎?」
=> 相形圖上下的兩條水平線代表最大最小觀測值(Q1 ± 1.5*IQR),在統計中很常會把這個當成是異常值的邊界,所以你的理解是正確的。不過如果根據資料的特性,你也可以把異常值的邊界放寬。
「問題二:是不是應該予以保留,還是建議刪除」
=> 我通常都是先建議保留,根據結果再觀察:)