多種目標預測問題
2020/01/04 下午 06:52
機器學習共學討論版
劉致良
觀看數:24
回答數:3
收藏數:2
各位專家 您好 有關於多種(目標)欄位預測,遇到一些麻煩,想詢問一下各位專家的意見:
目前大約有22個feature要對16個欄位做預測,目前使用random forest、xgboost模型 做Hyperopt的參數設定。使用sklearn 提供的multioutclassifier做多輸出分類預測 但是發現預測的欄位越多,準確度逐漸下降,想詢問專家這是合理的嗎? 若是只單純預測一個欄位,準確度至少有70,但是預測組合越多,準確度越差。
另外使用另一種方法將16個欄位合併成一個欄位,做多分類預測,也發現丟越多預測欄位合併成一個欄位做多分類預測,測試結果跟多輸出分類的結果差不多,想詢問專家這種多種欄位預測的問題,一般該怎麼處理會比較適當?
資料處理方式: 用IQR排除異常值 再用KNNimputer做填補 類別變項用眾數處裡。再丟入模型時避免 資料imbalance 有再加入 class_weight="balanced" 做資料平衡設定
回答列表
-
2020/01/07 上午 00:59Jeffrey贊同數:1不贊同數:0留言數:4
通常做多欄位預測時,最怕發生features裡有outliers, 所以建議是先做classifier 或是 clustering.
-
2020/01/07 上午 01:03Jeffrey贊同數:1不贊同數:0留言數:1
異常值的處理建議直接用分群, 類別項目用眾數?應該是用one-hot 比較合適吧!
-
2020/01/20 下午 04:00張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
「但是發現預測的欄位越多,準確度逐漸下降,想詢問專家這是合理的嗎?」要看你的「多種(目標)欄位預測」的目標之間有沒有相依性,如果有的話那下降是合理的。