logo
Loading...

關於特徵間缺值相互影響的問題 - Cupoy

嗨想問若我要自行組合新的欄位,欄位名稱分別為申請次數和被拒絕率。若有一部分的客戶過去沒有任何申請次數...

ml100-2,ml100-2-d06

關於特徵間缺值相互影響的問題

2019/10/11 下午 07:35
機器學習共學討論版
doris
觀看數:11
回答數:2
收藏數:0
ml100-2
ml100-2-d06

想問若我要自行組合新的欄位,欄位名稱分別為申請次數和被拒絕率。若有一部分的客戶過去沒有任何申請次數,也就表示在被拒絕率的部分會是空值。若要保留這兩個欄位的話,該怎麼處理?有可以查詢相關解決方法的方向嗎?謝謝!

回答列表

  • 2019/10/11 下午 11:59
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:0
    留言數:1

    補空值的內容, 在第二屆課程的 Day07 與 Day19 會有詳細說明

    但基本原則不脫 : 有最合理意義就填意義 / 沒有合理意義者就填有助預測的數值 這些原則


    就以你提的例子來說, 申請數應該補0 (合理意義 : 從未申請過)

    而被拒絕率就該填整份資料的被拒絕率平均值 (numpy.nanmean())

  • 2019/10/12 下午 09:54
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    「但我不太能理解,沒有申請,被拒絕率就應該是空值,他們兩個關係是絕對的。在這種情況下,為什麼還能填上一個數值,這樣做有什麼好處?不會影響到訓練結果嗎?」


    => 補空值的目標不是提升模型效果,必然會影響到結果。不過為了模型的數學運算,補值可以選擇一種盡量不要影響結果的方法(例如:統計值)。