logo
Loading...

請問如何判斷相異值「有限」或「不太具有代表性」? 又為何處理方式是「轉成文字」或「做標籤編碼」? - Cupoy

在範例第6行,有2組特徵處理,分別是:# 四個數值欄位, 因為相異值有限, 轉成文字# 相異值不太具...

ml100-2,ml100-2-d49

請問如何判斷相異值「有限」或「不太具有代表性」? 又為何處理方式是「轉成文字」或「做標籤編碼」?

2019/08/21 下午 10:51
機器學習共學討論版
redcard
觀看數:21
回答數:1
收藏數:0
ml100-2
ml100-2-d49

在範例第6行,有2組特徵處理,分別是:

# 四個數值欄位, 因為相異值有限, 轉成文字

# 相異值不太具有代表性的, 做標籤編碼


請問如何判斷相異值「有限」或「不太具有代表性」?

又為何處理方式是「轉成文字」或「做標籤編碼」?

回答列表

  • 2019/08/22 下午 04:42
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    相異值「有限」的意思是雖然是數值,但只有幾種資料,這邊就會把它視為是「類別資料使用」。舉個例子,如果有一個資料是出生月份,1, 2 .. 12 ,這個欄位可以當作是連續數值資料,不過實務上我們也可以吧他當成是有 12 種的可能的離散類別資料。