請問為什麼範例缺失值會用-1來補?
2019/09/08 下午 04:26
機器學習共學討論版
Ctyun
觀看數:92
回答數:3
收藏數:1
ml100-3
ml100-3-d12
投影片只說明了可以使用0、平均值等等的填補缺失值,並沒有提到用-1補。 請問為什麼練習與作業缺失值會是用-1來補? 可以說明用-1補的統計意義嗎?又或者是用-1補只是會了與其他做比較?
回答列表
-
2019/09/09 上午 10:17張維元 (WeiYuan)贊同數:2不贊同數:0留言數:1
用-1補只是會了與其他做比較,當成一個新的值。通常會用於 0 可能本來就有意義(不可隨便給)的情況。
-
2019/09/09 上午 10:30盧思妤贊同數:1不贊同數:0留言數:0
參考資料來源:数据分析中的缺失值处理
https://blog.csdn.net/lujiandong1/article/details/52654703
「“婚姻狀態”:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。」
我參考了網路上文章的說明,以及維元老師的答覆,我想應該是「0、1」這兩者本身就有代表意義,如果隨意用「0或1」任一數字來填補,可能會產生錯誤判斷,所以才會要我們試著用「-1」補看看。不過經過這幾天課後我有個小心得,那就是我們可以試著用各種數據來填補看看分數如何,說不定會意外找出更適合的填補資料方式~
-
2019/10/12 下午 09:59張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
「但範例中空值補了-1,會再做 MinMaxScaler().fit_transform(df) 以及 StandardScaler().fit_transform(df) 那這樣最小值、平均數都會受影響了耶,就不單單只是比較了,這樣沒有問題嗎?」
=> 會造成問題沒錯,所以「補值」會希望盡量找一個影響程度較小,又能滿足運算的方式。