underfitting解決
2019/05/19 上午 01:50
機器學習共學討論版
劉致良
觀看數:1
回答數:3
收藏數:0
ml100
老師您好 我有在跑一個資料 但是使用SVR adaboost xgbboost random forest regression 最後的結果都是underfitting 且 r-squre的數值 是-0.003 或是0.001
我的欄位的資料是有符合常態分佈,且我都有把雜訊都清掉 欄位也增加也沒用,請問一下老師 要怎麼解決?
回答列表
-
2019/05/20 下午 03:45陳明佑 (Ming You Chen)贊同數:0不贊同數:0留言數:2
這個很難一概而論, 看描述還是不太清楚你的情況
有時候模型估計不好, 是資料的問題, 這時候什麼方法都不好用
而雜訊也要看情況排除, 如果一些雜訊是有意義的, 要特別留下
而一些 Kaggle 上困難的競賽, 每個特徵都已經修到接近常態分佈了
所以也不能光從特徵是否是常態分布, 判定資料好不好做
如果是自己或公司的專題, 我會建議你在多收集一些特徵
如果你是正在作競賽...我可以跟你說, 這就是困難資料的長相...可要好好記住了XD
做久了你反而會希望特徵不要全都是常態分布, 比較好
就像一位美女, 五官都太完美了, 反而難讓人記得/認得你是誰...
這對機器學習(不論回歸還是分類)來說, 是很痛苦的事情
-
2019/05/21 上午 10:22張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
通常在做一個分析資料,你要先思考一下這個資料是否可分,可發與否可以從資料的分佈是否有相關、專業知識的判讀等等。
-
2019/05/22 下午 05:29張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
那若是太符合常態分佈是否就會造成overfitting的情形?
=> 分布跟是否 Overfitting 應該無關吧?