均值編碼過擬合問題

2020/03/31 下午 05:52

機器學習共學討論版

吳宗翰

觀看數：7

回答數：3

收藏數：1

ml100-4

為防止均值編碼容易過擬合所以捨棄一些 column .

但要依循什麼標準來決定要捨棄哪些 column ?

回答列表

2020/03/31 下午 06:23

Jeffrey

贊同數：2

不贊同數：0

留言數：1

考慮兩個:

1. 剛好抽到極端值，平均的結果可能具有很大誤差

2. 資料紀錄筆數過少
2020/04/05 上午 04:08

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

嗨，以下簡單回覆你的問題

1. 各個column的極端值不是在進行編碼前就應該先處理掉了嗎? (丟棄某資料點或補值)

=> 不一定吧，要看你有沒有處理 Outliner ，不一定會在編碼前先處理。

2. 作業解答選擇丟棄 'Name' 欄位, 是因為名字獨一無二, 無法作為特徵嗎?

=> 是的！

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/04/05 上午 04:10

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

嗨，「為防止均值編碼容易過擬合所以捨棄一些 column .

但要依循什麼標準來決定要捨棄哪些 column ? 」

=> 這裡應該不是要丟棄 column 哦，而是挑選特定的 column 來做均值編碼就好。至於怎麼挑，還是要看資料的分佈情況。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃