logo
Loading...

離群值的意涵 - Cupoy

對於離群值的意涵有點疑問。離群值只是初步判斷有可能有問題的數值,故判斷出離群值後,需要進一步釐清,若...

離群值的意涵

2019/09/18 下午 03:46
機器學習共學討論版
doris
觀看數:27
回答數:2
收藏數:0

對於離群值的意涵有點疑問。離群值只是初步判斷有可能有問題的數值,故判斷出離群值後,需要進一步釐清,若釐清後發現數值是正確的,就不需要將該欄位進行特別的處理嗎?


例如:身高分佈中發現有一個數值為  200 cm,判斷為離群值,進一步釐清後發現確實有一個受試者的身高為 200 cm,在這個情況下,是否就維持200這個數值在欄位中? 

回答列表

  • 2019/09/18 下午 09:33
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:2

    若釐清後發現數值是正確的,就不需要將該欄位進行特別的處理嗎?


    => 當然啊,定義是由資料來決定的:)

  • 2019/09/19 上午 10:31
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    「你說明的內容也是我有疑慮的部分。可能我的問法不夠清楚,我再重新收斂一下我的問題:離群值到底是用來判斷資料是否有誤?還是用來增進模型的解釋力?」


    => 拿掉離群值可以增加增進模型的解釋力這句話沒錯。可是如果這個離群值是資料當中的正常數值,你把它拿掉之後,就會變成「增加不包含某些數值的模型的解釋力」,這樣不一定是比較好的。


    另外離群值需要考量的是「數值大小極端」跟「出現次數很少」。在你的例子中數值大小極端但是出現次數很少拿掉可能還好,但如果資料當中有很多人是 200cm 的話,那如果拿掉的話可能會有嚴重的影響。