關於特徵間缺值相互影響的問題
2019/10/11 下午 07:35
機器學習共學討論版
doris
觀看數:11
回答數:2
收藏數:0
ml100-2
ml100-2-d06
嗨
想問若我要自行組合新的欄位,欄位名稱分別為申請次數和被拒絕率。若有一部分的客戶過去沒有任何申請次數,也就表示在被拒絕率的部分會是空值。若要保留這兩個欄位的話,該怎麼處理?有可以查詢相關解決方法的方向嗎?謝謝!
回答列表
-
2019/10/11 下午 11:59陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:1
補空值的內容, 在第二屆課程的 Day07 與 Day19 會有詳細說明
但基本原則不脫 : 有最合理意義就填意義 / 沒有合理意義者就填有助預測的數值 這些原則
就以你提的例子來說, 申請數應該補0 (合理意義 : 從未申請過)
而被拒絕率就該填整份資料的被拒絕率平均值 (numpy.nanmean())
-
2019/10/12 下午 09:54張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
「但我不太能理解,沒有申請,被拒絕率就應該是空值,他們兩個關係是絕對的。在這種情況下,為什麼還能填上一個數值,這樣做有什麼好處?不會影響到訓練結果嗎?」
=> 補空值的目標不是提升模型效果,必然會影響到結果。不過為了模型的數學運算,補值可以選擇一種盡量不要影響結果的方法(例如:統計值)。