logo
Loading...

關於類別型資料[風險率], 若每筆資料的風險率具有高相關性, 要採用什麼處理這種類別型資料的方法? - Cupoy

當有一個 Dataframe, 包含連續型與類別型的資料欄位今天的情境是銀行, 類別型欄位有[地點,...

關於類別型資料[風險率], 若每筆資料的風險率具有高相關性, 要採用什麼處理這種類別型資料的方法?

2021/04/23 下午 05:49
機器學習共學討論版
沼澤莉莉
觀看數:50
回答數:2
收藏數:0

當有一個 Dataframe, 包含連續型與類別型的資料欄位 今天的情境是銀行, 類別型欄位有[地點, 風險率] 現在知道說,風險率這個特徵對於模型來說,是影響非常大的特徵 那我們要怎麼對這兩種類別型特徵進行前處理? Question 1. 地點 = 台北, 高雄, 台南 (地點這個類別型特徵之間,相關性不高) 2. 風險率=1~10分 (整個 Dataframe 來說.每個樣本之間的風險率相關性很大) ----------------------------------------------------------------------------------------------------------------- Answer 1. Label Encoding 和 One Hot Encoding 好像都適合處理地點, 我不太確定是不是這兩種 2. 這就是我疑問所在??? 我不知道當某個類別型特徵, 在所有樣本之間有高相關性, 應該要如何處理 ♥ 非常感恩~~

回答列表

  • 2021/04/23 下午 09:22
    Jaio
    贊同數:0
    不贊同數:0
    留言數:2

    1. label encoding 用在沒有順序的離散型資料更好,現在有台北、高雄、台南,如果把他們改成 1、2、3 會不小心賦予他們有大小關係,但很明顯這樣做不合理,所以用 one hot encoding 會更好。(我假設你已知兩者的運作摟) 2. 那要想想處理的目的是什麼~因為有些數據也不一定要特別處理。 請問有解答到你的問題嗎

  • 2021/04/24 下午 10:30
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,你好
    你的問題很直得思考,以下回答: 1. Label Encoding 和 One Hot Encoding 好像都適合處理地點, 我不太確定是不是這兩種 => 要取決你的資料是否有「順序」、「大小」的關係,因此如果你想考慮的是地點跟地點是有距離關係的話(如果你想保留「台中跟台北」比「高雄跟台北」比起來更近),用 Label Encoding ,你只是想表達不同的地點但彼此間距離沒重要的話用 One Hot Encoding。 2. 這就是我疑問所在??? 我不知道當某個類別型特徵, 在所有樣本之間有高相關性, 應該要如何處理 => 這邊講「所有樣本之間有高相關性」的是指對目標欄位來說嗎?一般在考慮個別欄位的編碼轉換還不用考慮對類別的關係。

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤 我的粉絲專頁 ヽ(●´∀`●)ノ