logo
Loading...

D24-label encoding vs one hot encoding對於不同模型的影響? - Cupoy

在D24的範例與作業中,要我們去實作兩種encoding方式對於不同模型(線性回歸,決策樹,邏輯回歸...

D24-label encoding vs one hot encoding對於不同模型的影響?

2020/09/12 09:28 AM
機器學習新手論壇
蘇蔚廷
觀看數:0
回答數:1
收藏數:0

    在D24的範例與作業中,要我們去實作兩種encoding方式對於不同模型(線性回歸,決策樹,邏輯回歸)的影響,

對於結果的影響是不是因為:

1.線性回歸中不適合one hot encoding是否是因為會產生多重共線性,導致VIF過高預測不準確的問題?

2.在決策樹類的模型下,則是因為決策樹並不會因為特徵數值大小而受到影響,因此只要做label encoding即可,one hot encoding只是增加維度使樹狀結構的深度增加,對於預測並無幫助。

3.邏輯回歸雖然兩個結果看起來差不多,我認為是因為剛好用的自變數的變化量不大(大多都是男女,房間等差異),多數欄位都是票據跟姓名產生的,所以用one hot encoding的影響不大。但是不是實作上也需要注意共線性的問題,要適度地去縮減欄位再用encoding會比較好?


以上三個問題不知道是否理解正確? 感謝