label與one hot encoding使用方式
2019/08/26 下午 10:51
機器學習共學討論版
TLYu0419
觀看數:47
回答數:3
收藏數:0
ml100-2
ml100-2-d22
請問當我們將類別資料透過label encoding轉為1,2,3,...10後,並且放入樹狀模型時,
模型是將資料視為10個類別間無大小關係的類別變數,還是10>9>8>...>1的數值變數?
如果是前者,模型又是如何識別該欄位是label encoding後的結果,不應當做一般的數值變數呢?
回答列表
-
2019/08/27 上午 10:58張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
樹狀模型的算法就是將資料視為不同的變數,不會受到數值的大小影響。
模型又是如何識別該欄位是label encoding後的結果,不應當做一般的數值變數呢?
-
2019/08/27 下午 05:18陳明佑 (Ming You Chen)贊同數:0不贊同數:0留言數:3
同學你好 :
因為轉換後是數字, 當然是10>9>8>...>1的數值變數
但在樹狀模型去fit的時候, 假如某一個數值(假定為3)代表的類別, 機率比其他類別大很多
這時候雖然有上述大小比較的情況,
但是就可能被 (x>=3) 與 (x<=3) 兩個條件所夾擊標示出來, 只需要兩次分割的代價
-
2019/08/28 下午 09:51張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
您的意思是說當我input一個變數,比方是numeric的年齡0-90歲,決策樹也是當成0-90個不同的變數,不考慮90>89>88>……>1這個資訊的意思嗎?
=> 是的