【QA】欠採樣(Undersampling)的常用技術－隨機欠採樣、Easyensemble、BalanceCascade?? - Cupoy

在介紹過不平衡數據的過採樣處理方法後【QA】過採樣(oversampling)的常用技術??，接著將...

【QA】欠採樣(Undersampling)的常用技術－隨機欠採樣、Easyensemble、BalanceCascade??

2021/09/17 上午 00:01

機器學習共學討論版

Ray

觀看數：1156

回答數：1

收藏數：1

在介紹過不平衡數據的過採樣處理方法後[【QA】過採樣(oversampling)的常用技術??](https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017BD8FC94950000000A6375706F795F72656C656173655155455354)，接著將要與各位一起探討另外一部分的不平衡數據處理方法－欠採樣

回答列表

2021/09/17 上午 00:14

Ray

贊同數：0

不贊同數：0

留言數：0

我們在[【QA】過採樣(oversampling)的常用技術??](https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017BD8FC94950000000A6375706F795F72656C656173655155455354)與[【QA】過採樣(oversampling)的常用技術－ADASYN、Borderline-SMOTE？?](https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017BDED9AEB00000000E6375706F795F72656C656173655155455354)中介紹了過採樣的幾種常用技術，本次要接著來介紹欠採樣的常用技術： ![Screen Shot 2021-09-16 at 10.12.38 PM.png](http://kwassistfile.cupoy.com/0000017BEF57F657000000166375706F795F72656C65617365414E53/1630891912594/large)[參考圖片來源](https://www.cnblogs.com/massquantity/p/9382710.html) 1. 隨機欠採樣（Random Undersampling)：隨機欠採樣與隨機過採樣相同，屬於概念較為簡單的採樣技術，隨機欠採樣的方法就是從多數類別的樣本中隨機刪除一部分的樣本，但是因為是隨機刪除，被刪除的樣本當中可能會含有一些比較重要的樣本，因此訓練出來的模型效果通常較差。 --------------------- 2. 集成式方法：採用集成學習(Ensemble learning)的方法來改善隨機欠採樣中重要樣本被隨機刪除的問題，集成式方法分為兩種： * EasyEnsemble：其概念是將多數類別的樣本隨機劃分成n個子集，每個子集的數量等於少數類樣本的數量，這相當於欠採樣。接著將每個子集與少數類樣本結合起來訓練成若n個分類器進行集成學習，這樣雖然每個子集的樣本少於總體樣本，但集成後總信息量並未減少。下圖為EasyEnsemble論文中的虛擬碼： ![Screen Shot 2021-09-16 at 11.06.47 PM.png](http://kwassistfile.cupoy.com/0000017BEF57F657000000166375706F795F72656C65617365414E53/1630891912595/large)[參考圖片來源](https://cs.nju.edu.cn/wujx/paper/icdm06-easyensemble-vfinal.pdf) 根據上圖可以了解到其算法過程如下： 1. 重複對多數類別樣本進行有放回採樣Ｔ次，採樣的數量與少數類樣本相同，並將採樣得到的多數類別樣本與少數類別樣本結合形成子集 2. 利用得到的Ｔ個子集分別訓練成Ｔ個AdaBoost弱分類器 3. 集成Ｔ個AdaBoost弱分類器，最後使用sgn函數來進行分類，sgn函數會把非整數的結果轉換成兩個分類，小於0返回-1，大於0則返回1。 * BalanceCascade：BalanceCascad的概念與EasyEnsemble差異不大，同樣是將多數類別的樣本隨機劃分成n個子集，每個子集的數量等於少數類樣本的數量，接著將每個子集與少數類樣本結合起來訓練成若n個分類器進行集成學習，但是BalanceCascad會在這過程中調整閥值，通過調整閥值在每次訓練弱分類器後將正確分類的樣本刪除，只保留下分類錯誤的樣本，以此來控制False Positive Rate(偽陽性率)，降低多數類別的樣本數量。下圖為BalanceCascade論文中的虛擬碼： ![Screen Shot 2021-09-16 at 11.51.11 PM.png](http://kwassistfile.cupoy.com/0000017BEF57F657000000166375706F795F72656C65617365414E53/1630891912596/large)[參考圖片來源](https://cs.nju.edu.cn/wujx/paper/icdm06-easyensemble-vfinal.pdf) 其算法過程如下： 1. 重複對多數類別樣本進行有放回採樣Ｔ次，採樣的數量與少數類樣本相同，並將採樣得到的多數類別樣本與少數類別樣本結合形成子集 2. 利用得到的Ｔ個子集分別訓練成Ｔ個AdaBoost弱分類器 3. 調整閥值theta以保證False Positive Rate(偽陽性率)等於f 4. 刪除多數類別樣本中被AdaBoost弱分類器正確分類的樣本 5. 將Ｔ個AdaBoost弱分類器進行集成，最後使用sgn函數來進行分類。 ----------------------- 有興趣進一步了解的人可以參考以下連結： * [Exploratory Under-Sampling for Class-Imbalance Learning](https://cs.nju.edu.cn/wujx/paper/icdm06-easyensemble-vfinal.pdf) * [机器学习之类别不平衡问题 (3) —— 采样方法](https://www.cnblogs.com/massquantity/p/9382710.html) * [easy ensemble 算法和balance cascade算法](https://blog.csdn.net/march_on/article/details/48656391) * [EasyEnsemble(集成学习——处理不平衡样本分类问题)－附程式碼](https://www.pianshen.com/article/5101161379/) * [非平衡分类问题 | BalanceCascade方法及其Python实现](https://zhuanlan.zhihu.com/p/36093594)