logo
Loading...

underfitting解決 - Cupoy

老師您好 我有在跑一個資料 但是使用SVR adaboost  xgbboost random fo...

ml100

underfitting解決

2019/05/19 上午 01:50
機器學習共學討論版
劉致良
觀看數:1
回答數:3
收藏數:0
ml100

老師您好 我有在跑一個資料 但是使用SVR adaboost  xgbboost random forest regression 最後的結果都是underfitting 且 r-squre的數值 是-0.003 或是0.001 

我的欄位的資料是有符合常態分佈,且我都有把雜訊都清掉  欄位也增加也沒用,請問一下老師 要怎麼解決?

回答列表

  • 2019/05/20 下午 03:45
    陳明佑 (Ming You Chen)
    贊同數:0
    不贊同數:0
    留言數:2

    這個很難一概而論, 看描述還是不太清楚你的情況

    有時候模型估計不好, 是資料的問題, 這時候什麼方法都不好用


    而雜訊也要看情況排除, 如果一些雜訊是有意義的, 要特別留下

    而一些 Kaggle 上困難的競賽, 每個特徵都已經修到接近常態分佈了

    所以也不能光從特徵是否是常態分布, 判定資料好不好做


    如果是自己或公司的專題, 我會建議你在多收集一些特徵

    如果你是正在作競賽...我可以跟你說, 這就是困難資料的長相...可要好好記住了XD


    做久了你反而會希望特徵不要全都是常態分布, 比較好

    就像一位美女, 五官都太完美了, 反而難讓人記得/認得你是誰...

    這對機器學習(不論回歸還是分類)來說, 是很痛苦的事情

  • 2019/05/21 上午 10:22
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    通常在做一個分析資料,你要先思考一下這個資料是否可分,可發與否可以從資料的分佈是否有相關、專業知識的判讀等等。

  • 2019/05/22 下午 05:29
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    那若是太符合常態分佈是否就會造成overfitting的情形?


    => 分布跟是否 Overfitting 應該無關吧?