logo
Loading...

均值編碼過擬合問題 - Cupoy

為防止均值編碼容易過擬合所以捨棄一些 column .但要依循什麼標準來決定要捨棄哪些 column...

ml100-4

均值編碼過擬合問題

2020/03/31 下午 05:52
機器學習共學討論版
吳宗翰
觀看數:7
回答數:3
收藏數:1
ml100-4

為防止均值編碼容易過擬合所以捨棄一些 column .

但要依循什麼標準來決定要捨棄哪些 column ? 

回答列表

  • 2020/03/31 下午 06:23
    Jeffrey
    贊同數:2
    不贊同數:0
    留言數:1

    考慮兩個:

    1. 剛好抽到極端值,平均的結果可能具有很大誤差

    2. 資料紀錄筆數過少

  • 2020/04/05 上午 04:08
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,以下簡單回覆你的問題


    1. 各個column的極端值不是在進行編碼前就應該先處理掉了嗎? (丟棄某資料點或補值) 


    => 不一定吧,要看你有沒有處理 Outliner ,不一定會在編碼前先處理。


    2. 作業解答選擇丟棄 'Name' 欄位, 是因為名字獨一無二, 無法作為特徵嗎?


    => 是的!


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/04/05 上午 04:10
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    嗨,「為防止均值編碼容易過擬合所以捨棄一些 column .

    但要依循什麼標準來決定要捨棄哪些 column ?


    => 這裡應該不是要丟棄 column 哦,而是挑選特定的 column 來做 均值編碼 就好。至於怎麼挑,還是要看資料的分佈情況。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃