請問如何判斷相異值「有限」或「不太具有代表性」? 又為何處理方式是「轉成文字」或「做標籤編碼」?
2019/08/21 下午 10:51
機器學習共學討論版
redcard
觀看數:21
回答數:1
收藏數:0
ml100-2
ml100-2-d49
在範例第6行,有2組特徵處理,分別是:
# 四個數值欄位, 因為相異值有限, 轉成文字
# 相異值不太具有代表性的, 做標籤編碼
請問如何判斷相異值「有限」或「不太具有代表性」?
又為何處理方式是「轉成文字」或「做標籤編碼」?
回答列表
-
2019/08/22 下午 04:42張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
相異值「有限」的意思是雖然是數值,但只有幾種資料,這邊就會把它視為是「類別資料使用」。舉個例子,如果有一個資料是出生月份,1, 2 .. 12 ,這個欄位可以當作是連續數值資料,不過實務上我們也可以吧他當成是有 12 種的可能的離散類別資料。