關於類別型資料[風險率], 若每筆資料的風險率具有高相關性, 要採用什麼處理這種類別型資料的方法? - Cupoy

當有一個 Dataframe, 包含連續型與類別型的資料欄位今天的情境是銀行, 類別型欄位有[地點,...

關於類別型資料[風險率], 若每筆資料的風險率具有高相關性, 要採用什麼處理這種類別型資料的方法?

2021/04/23 下午 05:49

機器學習共學討論版

沼澤莉莉

觀看數：56

回答數：2

收藏數：0

當有一個 Dataframe, 包含連續型與類別型的資料欄位今天的情境是銀行, 類別型欄位有[地點, 風險率] 現在知道說，風險率這個特徵對於模型來說，是影響非常大的特徵那我們要怎麼對這兩種類別型特徵進行前處理？ Question 1. 地點 = 台北, 高雄, 台南（地點這個類別型特徵之間，相關性不高） 2. 風險率=1~10分（整個 Dataframe 來說．每個樣本之間的風險率相關性很大） ----------------------------------------------------------------------------------------------------------------- Answer 1. Label Encoding 和 One Hot Encoding 好像都適合處理地點, 我不太確定是不是這兩種 2. 這就是我疑問所在??? 我不知道當某個類別型特徵, 在所有樣本之間有高相關性, 應該要如何處理 ♥ 非常感恩~~

回答列表

2021/04/23 下午 09:22

Jaio

贊同數：0

不贊同數：0

留言數：2

1. label encoding 用在沒有順序的離散型資料更好，現在有台北、高雄、台南，如果把他們改成 1、2、3 會不小心賦予他們有大小關係，但很明顯這樣做不合理，所以用 one hot encoding 會更好。（我假設你已知兩者的運作摟） 2. 那要想想處理的目的是什麼～因為有些數據也不一定要特別處理。請問有解答到你的問題嗎
2021/04/24 下午 10:30

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：2

嗨，你好
你的問題很直得思考，以下回答： 1. Label Encoding 和 One Hot Encoding 好像都適合處理地點, 我不太確定是不是這兩種 => 要取決你的資料是否有「順序」、「大小」的關係，因此如果你想考慮的是地點跟地點是有距離關係的話（如果你想保留「台中跟台北」比「高雄跟台北」比起來更近），用 Label Encoding ，你只是想表達不同的地點但彼此間距離沒重要的話用 One Hot Encoding。 2. 這就是我疑問所在??? 我不知道當某個類別型特徵, 在所有樣本之間有高相關性, 應該要如何處理 => 這邊講「所有樣本之間有高相關性」的是指對目標欄位來說嗎？一般在考慮個別欄位的編碼轉換還不用考慮對類別的關係。

嗨，你好，我是維元，持續在不同的平台發表對 #資料科學、 #網頁開發或 #軟體職涯相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流，都可以追蹤我的粉絲專頁ヽ(●´∀`●)ﾉ