使用One hot Encoding與樹狀模型及線性迴歸的分數差異
2019/05/21 下午 06:35
機器學習共學討論版
Kim Shih
觀看數:9
回答數:2
收藏數:0
ml100-2-d22
ml100-2
您好,
講義中提到Label Encoding適合樹狀模型; One hot Encoding適合非樹狀模型
但範例則是 One hot + 樹狀分數最高, One hot+線性迴歸分數最低.
請問要怎麼解讀呢?
謝謝!
回答列表
-
2019/05/22 下午 02:24張維元 (WeiYuan)贊同數:2不贊同數:0留言數:1
其實我這邊覺得「Encoding」方式主要還是依據資料特性為主,以及其做完的效果會不會影響到模型。這邊的「Label Encoding適合樹狀模型; One hot Encoding適合非樹狀模型」比較像是會不會有影響,而不是效果好不好。
以這個例子來說,One hot Encoding 會將資料中的順序所拿掉,這可能會是導致線性迴歸用距離計算產生資訊遺失的問題。
-
2019/05/23 上午 10:56張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
再請問,所以理論上應該一個個欄位根據判斷去做適合的Encoding處理,會讓效果較佳嗎?謝謝
=> 是的,不同資料會有不同的分佈跟情況,各自調整才能對症下藥。