離群值的意涵
2019/09/18 下午 03:46
機器學習共學討論版
doris
觀看數:27
回答數:2
收藏數:0
對於離群值的意涵有點疑問。離群值只是初步判斷有可能有問題的數值,故判斷出離群值後,需要進一步釐清,若釐清後發現數值是正確的,就不需要將該欄位進行特別的處理嗎?
例如:身高分佈中發現有一個數值為 200 cm,判斷為離群值,進一步釐清後發現確實有一個受試者的身高為 200 cm,在這個情況下,是否就維持200這個數值在欄位中?
回答列表
-
2019/09/18 下午 09:33張維元 (WeiYuan)贊同數:0不贊同數:0留言數:2
若釐清後發現數值是正確的,就不需要將該欄位進行特別的處理嗎?
=> 當然啊,定義是由資料來決定的:)
-
2019/09/19 上午 10:31張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
「你說明的內容也是我有疑慮的部分。可能我的問法不夠清楚,我再重新收斂一下我的問題:離群值到底是用來判斷資料是否有誤?還是用來增進模型的解釋力?」
=> 拿掉離群值可以增加增進模型的解釋力這句話沒錯。可是如果這個離群值是資料當中的正常數值,你把它拿掉之後,就會變成「增加不包含某些數值的模型的解釋力」,這樣不一定是比較好的。
另外離群值需要考量的是「數值大小極端」跟「出現次數很少」。在你的例子中數值大小極端但是出現次數很少拿掉可能還好,但如果資料當中有很多人是 200cm 的話,那如果拿掉的話可能會有嚴重的影響。