logo
Loading...

請問為什麼範例缺失值會用-1來補? - Cupoy

投影片只說明了可以使用0、平均值等等的填補缺失值,並沒有提到用-1補。   請問為什麼練習與作業缺失...

ml100-3,ml100-3-d12

請問為什麼範例缺失值會用-1來補?

2019/09/08 下午 04:26
機器學習共學討論版
Ctyun
觀看數:92
回答數:3
收藏數:1
ml100-3
ml100-3-d12

投影片只說明了可以使用0、平均值等等的填補缺失值,並沒有提到用-1補。   請問為什麼練習與作業缺失值會是用-1來補?  可以說明用-1補的統計意義嗎?又或者是用-1補只是會了與其他做比較?

回答列表

  • 2019/09/09 上午 10:17
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:1

    用-1補只是會了與其他做比較,當成一個新的值。通常會用於 0 可能本來就有意義(不可隨便給)的情況。

  • 2019/09/09 上午 10:30
    盧思妤
    贊同數:1
    不贊同數:0
    留言數:0

    參考資料來源:数据分析中的缺失值处理

    https://blog.csdn.net/lujiandong1/article/details/52654703

    「“婚姻狀態”:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。」


    我參考了網路上文章的說明,以及維元老師的答覆,我想應該是「0、1」這兩者本身就有代表意義,如果隨意用「0或1」任一數字來填補,可能會產生錯誤判斷,所以才會要我們試著用「-1」補看看。不過經過這幾天課後我有個小心得,那就是我們可以試著用各種數據來填補看看分數如何,說不定會意外找出更適合的填補資料方式~

  • 2019/10/12 下午 09:59
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    「但範例中空值補了-1,會再做 MinMaxScaler().fit_transform(df) 以及 StandardScaler().fit_transform(df) 那這樣最小值、平均數都會受影響了耶,就不單單只是比較了,這樣沒有問題嗎?」


    => 會造成問題沒錯,所以「補值」會希望盡量找一個影響程度較小,又能滿足運算的方式。