logo
Loading...

EDA: 把連續型變數離散化 - 機器學習百日 - Cupoy

今天的內容會帶大家了解 了解離散化連續數值的意義以及方法 連續行變數離散化 1. Goal(變穩定、簡單) 2. 關鍵點(組數、組寬) 3. 主要方法(等寬劃分、等頻劃分、聚類劃分) ...

今天的內容會帶大家了解 了解離散化連續數值的意義以及方法 連續行變數離散化 1. Goal(變穩定、簡單) 2. 關鍵點(組數、組寬) 3. 主要方法(等寬劃分、等頻劃分、聚類劃分) 離散化的目的是讓事情變簡單、減少 outlier 對分析以及訓練模型的影響 主要的方法是等寬劃分 (對應 pandas 中的 cut) 以及等頻劃分 (對應 pandas 中的 qcut) 有了大概的理解之後,我們開始今天的學習吧!!!