均值編碼過擬合問題
2020/03/31 下午 05:52
機器學習共學討論版
吳宗翰
觀看數:7
回答數:3
收藏數:1
ml100-4
為防止均值編碼容易過擬合所以捨棄一些 column .
但要依循什麼標準來決定要捨棄哪些 column ?
回答列表
-
2020/03/31 下午 06:23Jeffrey贊同數:2不贊同數:0留言數:1
考慮兩個:
1. 剛好抽到極端值,平均的結果可能具有很大誤差
2. 資料紀錄筆數過少
-
2020/04/05 上午 04:08張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,以下簡單回覆你的問題
1. 各個column的極端值不是在進行編碼前就應該先處理掉了嗎? (丟棄某資料點或補值)
=> 不一定吧,要看你有沒有處理 Outliner ,不一定會在編碼前先處理。
2. 作業解答選擇丟棄 'Name' 欄位, 是因為名字獨一無二, 無法作為特徵嗎?
=> 是的!
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/04/05 上午 04:10張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
嗨,「為防止均值編碼容易過擬合所以捨棄一些 column .
但要依循什麼標準來決定要捨棄哪些 column ? 」
=> 這裡應該不是要丟棄 column 哦,而是挑選特定的 column 來做 均值編碼 就好。至於怎麼挑,還是要看資料的分佈情況。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃