logo
Loading...

多種目標預測問題 - Cupoy

各位專家 您好 有關於多種(目標)欄位預測,遇到一些麻煩,想詢問一下各位專家的意見:目前大約有22個...

多種目標預測問題

2020/01/04 下午 06:52
機器學習共學討論版
劉致良
觀看數:24
回答數:3
收藏數:2

各位專家 您好 有關於多種(目標)欄位預測,遇到一些麻煩,想詢問一下各位專家的意見:

目前大約有22個feature要對16個欄位做預測,目前使用random forest、xgboost模型 做Hyperopt的參數設定。使用sklearn 提供的multioutclassifier做多輸出分類預測 但是發現預測的欄位越多,準確度逐漸下降,想詢問專家這是合理的嗎? 若是只單純預測一個欄位,準確度至少有70,但是預測組合越多,準確度越差。


另外使用另一種方法將16個欄位合併成一個欄位,做多分類預測,也發現丟越多預測欄位合併成一個欄位做多分類預測,測試結果跟多輸出分類的結果差不多,想詢問專家這種多種欄位預測的問題,一般該怎麼處理會比較適當?


資料處理方式: 用IQR排除異常值 再用KNNimputer做填補 類別變項用眾數處裡。再丟入模型時避免 資料imbalance 有再加入 class_weight="balanced" 做資料平衡設定 


回答列表

  • 2020/01/07 上午 00:59
    Jeffrey
    贊同數:1
    不贊同數:0
    留言數:4

    通常做多欄位預測時,最怕發生features裡有outliers, 所以建議是先做classifier 或是 clustering.

  • 2020/01/07 上午 01:03
    Jeffrey
    贊同數:1
    不贊同數:0
    留言數:1

    異常值的處理建議直接用分群, 類別項目用眾數?應該是用one-hot 比較合適吧!

  • 2020/01/20 下午 04:00
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    但是發現預測的欄位越多,準確度逐漸下降,想詢問專家這是合理的嗎?」要看你的「多種(目標)欄位預測」的目標之間有沒有相依性,如果有的話那下降是合理的。