關於mean encoding 的問題
2020/03/27 下午 00:10
機器學習共學討論版
林承慶
觀看數:6
回答數:2
收藏數:1
ml100-4
ml100-4-d25
請問,依照Day025的教學,mean encoding 和smoothing是使用目標來做編碼。
但是這樣不會產生data leakage的問題嗎?
進而產生overfitting的狀況?
回答列表
-
2020/03/28 下午 04:12張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
嗨,承慶
你這個問題很好!不過我這邊想先確認一下,你這裡的 data leakage 問題是指什麼?以及你為什麼覺得有可能會產生 overfitting 的狀況?
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/03/31 上午 00:29張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,承慶
「data leakage 我是指 目標數值和我們在操作的特徵資訊會混在一起 而由於特徵裡已經有目標數值的資訊,因此會讓資料變overfitting的現象」
=> 答案是會的哦!通常如果使用 mean encoding 的話,會建議搭配「regularization」或是「cross-validation」來避免 overfitting。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃