logo
Loading...

關於mean encoding 的問題 - Cupoy

請問,依照Day025的教學,mean encoding 和smoothing是使用目標來做編碼。但...

ml100-4,ml100-4-d25

關於mean encoding 的問題

2020/03/27 下午 00:10
機器學習共學討論版
林承慶
觀看數:6
回答數:2
收藏數:1
ml100-4
ml100-4-d25

請問,依照Day025的教學,mean encoding 和smoothing是使用目標來做編碼。

但是這樣不會產生data leakage的問題嗎?

進而產生overfitting的狀況?

回答列表

  • 2020/03/28 下午 04:12
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,承慶


    你這個問題很好!不過我這邊想先確認一下,你這裡的 data leakage 問題是指什麼?以及你為什麼覺得有可能會產生  overfitting 的狀況?


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/03/31 上午 00:29
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,承慶


    「data leakage 我是指 目標數值和我們在操作的特徵資訊會混在一起 而由於特徵裡已經有目標數值的資訊,因此會讓資料變overfitting的現象」


    => 答案是會的哦!通常如果使用 mean encoding 的話,會建議搭配「regularization」或是「cross-validation」來避免 overfitting。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃