如果要用k-means作連續數值的分箱,一般會怎麼作呢?
2021/08/10 上午 02:05
XGBoost
Ma Chao Ting
觀看數:39
回答數:1
收藏數:0
如果要用k-means作連續數值的分箱,一般會怎麼作呢? 會怎麼驗證這樣分箱是好或不好呢?
回答列表
-
2021/08/13 上午 10:53Lance贊同數:0不贊同數:0留言數:0
1. 同學可能有搞錯使用的順序,一般來說是將所有特徵(除了預測目標)都輸入 k-means 模型來做 clustering ,並將分群的結果當成一個新的 feature 加入資料集;且一定要將特徵標準化,沒有標準化會使 k-means 分群效果大幅下降。 2. 可以使用 elbow method, Gap method 等方法來驗證分群數,我個人會直接使用最後的準確度來作為驗證。