Day_010 數值型特徵 - 去除離群值 為何df.fillna(-1) 缺值要以-1來填充呢
2020/07/01 下午 03:59
機器學習共學討論版
林瑋晨
觀看數:20
回答數:2
收藏數:2
ml100
ml100-d10
df
=
df
[
num_features
]
df =
df
.
fillna
(
-
1
)
MMEncoder =
MinMaxScaler
()
df.
head
()
為何df.fillna(-1) 缺值要以-1來填充呢
回答列表
-
2020/07/01 下午 05:38Jeffrey贊同數:1不贊同數:0留言數:0
缺失值的填充其實有幾種模式: 眾數, 中位數, 或是不常用不會影響結果.
所以, 選擇 (-1) 是其中的一個選項
-
2020/07/05 下午 06:58張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
嗨,補充一下我的想法,常見的缺失值處理有以下幾種:
1. 視影響程度多少決定是否直接刪除
2. 直接補一個常數值/固定值,例如:0、-1、UNKNOWN、無法確定之類的
3. 根據全部/類似資料補統計值,連續型建議捕平均數、離散/類別行建議補眾數
4. 利用統計的內差/回歸或是機器學習模型對欄位運算
不管是哪一種方法,最高指導原則都是「盡量不破壞原本資料的分佈」。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃