D24 標籤編碼是否適合放入模型?作業將其與獨熱編碼做比較
2020/09/16 下午 01:09
機器學習共學討論版
yicchen
觀看數:19
回答數:1
收藏數:0
請問課程作業將標籤編碼與獨熱編碼做比較,這問題是否會誤導,若剛好標籤編碼表現較好,也只是剛好而已吧?
" 觀察範例,在房價預測中調整標籤編碼(Label Encoder) / 獨熱編碼 (One Hot Encoder) 方式,對於線性迴歸以及梯度提升樹兩種模型,何者影響比較大? "
(網路爬文看到這篇)
回答列表
-
2020/09/17 上午 02:27張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
嗨,老實說我也覺得這樣比怪怪的,通常原始資料適用於「哪一種編碼」是有其轉換的原因的。不過有時候也不一定是最佳的,若剛好標籤編碼表現較好,有可能只是剛好而已,也有可能是我們沒注意的因素存在其中。所以需要多跑一些實驗來驗證看看,說不定真的跟我們想的不一樣,這就是特徵工程/資料前處理有趣之處。
如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。另外我目前有舉辦一個課程:【資料科學家的 12 堂心法課】,或加入我自己經營的Line 群組社群,歡迎一起來玩玩!另外想說明一下,如果你覺得我的回覆對你沒有幫助或是僅為了衝數量的話也請不要怪罪主辦單位,我並不是他們聘請的助教,只是一個路過回覆的路人甲而已。