如何由圖形檢查異常值?
2019/05/05 下午 05:05
機器學習共學討論版
YJ LIN
觀看數:18
回答數:2
收藏數:0
ml100-2
資料異常
ml100-2-d06
已爬文,覺得與這題有點相關,老師也有說可以印出數值來判斷。https://www.cupoy.com/qa/kwassist/ai_tw/0000016A3EA9C962000004156375706F795F72656C656173655155455354
但想請教的部分是,如何用圖形可以看出REGION_POULATION_RELATIVE是有異常的呢?是否可以請老師們分享一些異常與正常的案例?因為對數據分析這塊並不熟悉,還請老師解惑,謝謝。
回答列表
-
2019/05/05 下午 10:23白學群贊同數:2不贊同數:0留言數:1
您好:
關於outliers,這是需要經驗的累積以及Domain Knowledge來結合的,在資料探勘裡面這個環節太廣大了,就以您提出的類別來說,我會先用 Describe 函數來先做初步的檢測,此時我們發現數據的中位數為0.018, 第一四分位數位0.010,最小值為0.00029(趨於0),第三四分位數為0.028,但最大值卻為0.072,這確實有點弔詭。
再來利用Boxplot來確認一下,發現的確有值是在0.07左右,此時我們便可以把這類別注意一下。
為什麼我會說注意一下呢? 因為我們還不能100%確定他就是異常值,此時我們要再回去看這個類別的數值用意為何? 正常的情況下數值會為多少?? 這些都是我們發現異常值之後要去做確認的! 最後我們才可以再繼續地對異常值來處理。
希望能幫到您!
-
2019/05/06 上午 01:10張維元 (WeiYuan)贊同數:2不贊同數:0留言數:1
樓上講得很完整,畫圖或是描述統計都是用來觀察探索資料或是找出資料異常的好方法。D5、D6 就是在教你怎麼探索資料,怎麼發現異常的資料出現。