如何處理多個預測目標的樣本不平衡(imbalanced)問題
2020/02/08 上午 00:15
機器學習共學討論版
劉致良
觀看數:12
回答數:3
收藏數:0
老師您好,想請問一下,能不能一次針對所有的目標做樣本不平衡處理,再匯入模型中? 若是一個一個處理會很耗時間,有沒有方法能夠解決? (以下是要預測的目標 每個目標的第一個欄位數量為0 第二個為1 如INH, 0的個數為4,688 ,1的個數為:1,457)
回答列表
-
2020/02/08 上午 02:24Jeffrey贊同數:2不贊同數:0留言數:5
-
2020/02/08 上午 02:30Jeffrey贊同數:3不贊同數:0留言數:0
-
2020/07/08 下午 05:32Jeffrey贊同數:0不贊同數:0留言數:0
建議兩種做法:
1. 使用Sklearn imblearn庫中的BalancedBaggingClassifier。它允許在訓練集成分類器中每個子分類器之前對每個子數據集進行重採樣。
2. 過採樣,最常見的技術是SMOTE(Synthetic Minority Over-sampling Technique,合成少數類過採樣技術)。簡單地說,就是在少數類數據點的特徵空間裡,根據隨機選擇的一個K最近鄰樣本隨機地合成新樣本。