logo
Loading...

D24不需要使用One hot encoding時機 - Cupoy

想請問一下有關D24延伸閱讀文章https://www.twblogs.net/a/5baab6e3...

D24不需要使用One hot encoding時機

2022/11/27 上午 00:06
類別型特徵 - 基礎處理
鈞仔
觀看數:2
回答數:1
收藏數:0

想請問一下有關D24延伸閱讀文章 https://www.twblogs.net/a/5baab6e32b7177781a0e6859?lang=zh-cn 裡面有一段提到: ![問題.png](http://kwassistfile.cupoy.com/00000184B4ADA67E0000000F6375706F795F72656C656173655155455354/1667794296359/large) 我想請教紅色框框裡面的意思是什麼? 不懂"基於樹的算法"?? 基於向量空間度量?? 沒有偏序關係?? 不知有沒有老師或其他大大方便具體說明嗎?

回答列表

  • 2022/12/01 下午 03:17
    王健安
    贊同數:1
    不贊同數:0
    留言數:1

    鈞仔 您好, 樹型演算法是透過「符合某種條件下」決定資料如何被區分的演算法, 例如:長相是「醜」與「帥/中等」等兩種情況就會被分到兩個不同分支; 同理,當資料中有個「居住地」的類別變數, 一共有「北部」、「中部」、「南部」、「東部」與「外島」等五個類別, 對樹型演算法來說, 就可以直接依照該筆資料屬於哪個居住地,進而往下建立分支。 ![image](http://kwassistfile.cupoy.com/00000184CC7EDD85000000036375706F795F72656C65617365414E53/1667794296362/large) 至於若不是樹型演算法, 所有建立「模型」這件事其實就等同於建立一個「數學函數」, 換言之,每筆資料一定都只能是數字,且該數字被計算時要有實質意義, 例如:溫度、降雨量等, 但對類別變數而言, 數字本身僅代表它的類別, 並無法表達數字實質意涵, 換言之,假設「南部」的代號為 1 ,「北部」的代號為 2, 若直接將其納入公式運算,並無法解釋「北部大於南部」的意義, 因此才需要透過 One-Hot Encoding,把多類別的類別變數轉換成各個皆為二分類的類別變數。