如何提升多標籤問題的accuracy?
想請問 專家不曉得是否做過多標籤分類的問題,網路上有看到對於單一一個 樣本的評估指標(subset accuracy),他的評估方式是只要一個樣本中的label分類錯誤就會被當成分類錯誤,若是有很多個label要做分類,這樣可能會造成分類錯誤的機率更大。若是模型訓練到一定程度不會再上升(目前有4個label使用binary Relevance做分類,把每一個模型拆開做ROC及f1值 結果都還有70左右),但是把它拿去做驗證,結果準確度只剩下40多,請問一下專家 是否有建議的解決方法?(多標籤分類問題,只要預測的label數越多,accuracy就會越來越差)
參考網址
https://www.cnblogs.com/liaohuiqiang/p/9339996.html
回答列表
-
2020/04/06 上午 02:59張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
嗨,致良
1. 這裡想先確認一下你的「多標籤問題」實作上是如何進行的?
2. 「樣本的評估指標(subset accuracy),他的評估方式是只要一個樣本中的label分類錯誤就會被當成分類錯誤,若是有很多個label要做分類,這樣可能會造成分類錯誤的機率更大」是說,只有一個樣本當中只要有一個標籤錯誤,整個樣本就會被當成錯誤嗎?
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/04/10 上午 00:05張維元 (WeiYuan)贊同數:2不贊同數:0留言數:2
嗨,
「2.是的 如上面的圖片所述,所以 如果預測越多類 準確度會越差,是想說是否有其他方法可以解決 下面附上的網址(sklearn Accuracy score有說明--圖片無法放在這裡所以截圖在上面)」
=> 原因是採用 Accuracy score 這個衡量機制本身就比較嚴格,所有 Label 都符合才算正確。也許可以試試看,後面幾種改良過的評分方式:Balanced accuracy score、Cohen’s kappa ...
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/11/10 下午 04:43李柏霆贊同數:0不贊同數:0留言數:0
針對多標籤問題,如果某個類別出現的次數比較少,導致模型訓練成效不好的話
我們可以嘗試用smote sampling 的方式來針對出現次數比較少的類別來生成一些訓練資料
以下連結是smote sampling 的簡單介紹,可以參考一下
https://taweihuang.hpd.io/2018/12/30/imbalanced-data-sampling-techniques/
對應的api
https://imbalanced-learn.org/stable/generated/imblearn.over_sampling.SMOTE.html