多種目標預測問題 - Cupoy

各位專家您好有關於多種(目標)欄位預測，遇到一些麻煩，想詢問一下各位專家的意見:目前大約有22個...

多種目標預測問題

2020/01/04 下午 06:52

機器學習共學討論版

劉致良

觀看數：24

回答數：3

收藏數：2

各位專家您好有關於多種(目標)欄位預測，遇到一些麻煩，想詢問一下各位專家的意見:

目前大約有22個feature要對16個欄位做預測，目前使用random forest、xgboost模型做Hyperopt的參數設定。使用sklearn 提供的multioutclassifier做多輸出分類預測但是發現預測的欄位越多，準確度逐漸下降，想詢問專家這是合理的嗎? 若是只單純預測一個欄位，準確度至少有70，但是預測組合越多，準確度越差。

另外使用另一種方法將16個欄位合併成一個欄位，做多分類預測，也發現丟越多預測欄位合併成一個欄位做多分類預測，測試結果跟多輸出分類的結果差不多，想詢問專家這種多種欄位預測的問題，一般該怎麼處理會比較適當?

資料處理方式: 用IQR排除異常值再用KNNimputer做填補類別變項用眾數處裡。再丟入模型時避免資料imbalance 有再加入 class_weight="balanced" 做資料平衡設定

回答列表

2020/01/07 上午 00:59

Jeffrey

贊同數：1

不贊同數：0

留言數：4

通常做多欄位預測時，最怕發生features裡有outliers, 所以建議是先做classifier 或是 clustering.
2020/01/07 上午 01:03

Jeffrey

贊同數：1

不贊同數：0

留言數：1

異常值的處理建議直接用分群，類別項目用眾數？應該是用one-hot 比較合適吧！
2020/01/20 下午 04:00

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

「但是發現預測的欄位越多，準確度逐漸下降，想詢問專家這是合理的嗎?」要看你的「多種(目標)欄位預測」的目標之間有沒有相依性，如果有的話那下降是合理的。