logo
Loading...

Day_010 數值型特徵 - 去除離群值 為何df.fillna(-1) 缺值要以-1來填充呢 - Cupoy

df = df[num_features]df = df.fillna(-1)MMEncoder =...

ml100,ml100-d10

Day_010 數值型特徵 - 去除離群值 為何df.fillna(-1) 缺值要以-1來填充呢

2020/07/01 下午 03:59
機器學習共學討論版
林瑋晨
觀看數:20
回答數:2
收藏數:2
ml100
ml100-d10

df = df[num_features]
df
= df.fillna(-1)
MMEncoder
= MinMaxScaler()
df
.head()

為何df.fillna(-1) 缺值要以-1來填充呢

回答列表

  • 2020/07/01 下午 05:38
    Jeffrey
    贊同數:1
    不贊同數:0
    留言數:0

    缺失值的填充其實有幾種模式: 眾數, 中位數, 或是不常用不會影響結果.

    所以, 選擇 (-1) 是其中的一個選項

  • 2020/07/05 下午 06:58
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    嗨,補充一下我的想法,常見的缺失值處理有以下幾種:


    1. 視影響程度多少決定是否直接刪除

    2. 直接補一個常數值/固定值,例如:0、-1、UNKNOWN、無法確定之類的

    3. 根據全部/類似資料補統計值,連續型建議捕平均數、離散/類別行建議補眾數

    4. 利用統計的內差/回歸或是機器學習模型對欄位運算


    不管是哪一種方法,最高指導原則都是「盡量不破壞原本資料的分佈」。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃