logo
Loading...

【QA】如何處理不平衡資料(imbalanced data)? - Cupoy

不平衡資料是指資料中某個類別數量會特別多,或特別少,容易導致模型訓練或預測時數量多的類別容易被預測到...

【QA】如何處理不平衡資料(imbalanced data)?

2021/08/18 下午 06:05
機器學習共學討論版
王健安
觀看數:1092
回答數:1
收藏數:1

不平衡資料是指資料中某個類別數量會特別多,或特別少, 容易導致模型訓練或預測時數量多的類別容易被預測到, 但有些情境(例如:預測罕見疾病風險),目的其實是希望預測到數量少的類別, 因此需要針對不平衡資料做些處理, 請問常見的不平衡資料有哪些呢?

回答列表

  • 2021/08/18 下午 06:06
    王健安
    贊同數:0
    不贊同數:0
    留言數:1

    大家好, 不平衡資料是因為「有」與「沒有」的資料數量差距過大所導致的, 因此最終目標是「減少兩類別資料數量的差距」, 可分為兩大方向:生成類別數量少的資料、抽樣類別數量多的資料。 ![image](http://kwassistfile.cupoy.com/0000017B58B9A649000000016375706F795F72656C65617365414E53/1629431130903/large) 以下總括有一下常見的作法: 1. under sampling:把類別多的資料進行隨機抽樣,藉由減少多量資料達到兩類別資料數量一致的目的。 2. over sampling:把類別少的資料進行重複性地隨機抽樣,藉由增加少量資料達到兩類別資料數量一致的目的。 3. SMOTE:以少類別資料為基礎,生成特定範圍的資料,藉由增加少量資料達到兩類別資料數量一致的目的。 4. GAN:透過深度學習方法進行生成資料,藉由增加少量資料達到兩類別資料數量一致的目的。 ![image](http://kwassistfile.cupoy.com/0000017B58B9A649000000016375706F795F72656C65617365414E53/1629431130904/large) 參考答案: MdEditor:通過隨機取樣和資料增強來解決資料不平衡的問題 https://www.gushiciku.cn/pl/gsy3/zh-tw 知識星球:學習| 如何處理不平衡資料集 https://www.ipshop.xyz/14760.html