如何提升多標籤問題的accuracy?

2020/04/05 下午 03:28

機器學習共學討論版

劉致良

觀看數：50

回答數：3

收藏數：1

想請問專家不曉得是否做過多標籤分類的問題，網路上有看到對於單一一個樣本的評估指標(subset accuracy)，他的評估方式是只要一個樣本中的label分類錯誤就會被當成分類錯誤，若是有很多個label要做分類，這樣可能會造成分類錯誤的機率更大。若是模型訓練到一定程度不會再上升(目前有4個label使用binary Relevance做分類，把每一個模型拆開做ROC及f1值結果都還有70左右)，但是把它拿去做驗證，結果準確度只剩下40多，請問一下專家是否有建議的解決方法?(多標籤分類問題，只要預測的label數越多，accuracy就會越來越差)

參考網址

https://www.cnblogs.com/liaohuiqiang/p/9339996.html

https://blog.csdn.net/hackertom/article/details/102238410

https://blog.csdn.net/MaybeForever/article/details/89971368

回答列表

2020/04/06 上午 02:59

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

嗨，致良

1. 這裡想先確認一下你的「多標籤問題」實作上是如何進行的？

2. 「樣本的評估指標(subset accuracy)，他的評估方式是只要一個樣本中的label分類錯誤就會被當成分類錯誤，若是有很多個label要做分類，這樣可能會造成分類錯誤的機率更大」是說，只有一個樣本當中只要有一個標籤錯誤，整個樣本就會被當成錯誤嗎？

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/04/10 上午 00:05

張維元 (WeiYuan)

贊同數：2

不贊同數：0

留言數：2

嗨，

「2.是的如上面的圖片所述，所以如果預測越多類準確度會越差，是想說是否有其他方法可以解決下面附上的網址(sklearn Accuracy score有說明--圖片無法放在這裡所以截圖在上面)」

=> 原因是採用 Accuracy score 這個衡量機制本身就比較嚴格，所有 Label 都符合才算正確。也許可以試試看，後面幾種改良過的評分方式：Balanced accuracy score、Cohen’s kappa ...

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/11/10 下午 04:43

李柏霆

贊同數：0

不贊同數：0

留言數：0

針對多標籤問題，如果某個類別出現的次數比較少，導致模型訓練成效不好的話

我們可以嘗試用smote sampling 的方式來針對出現次數比較少的類別來生成一些訓練資料

以下連結是smote sampling 的簡單介紹，可以參考一下

https://taweihuang.hpd.io/2018/12/30/imbalanced-data-sampling-techniques/

對應的api

https://imbalanced-learn.org/stable/generated/imblearn.over_sampling.SMOTE.html