使用dataframe欄位篩選離群值,卻導致訓練的模型準確度降低了?
2019/05/28 下午 01:43
機器學習共學討論版
林僅軒
觀看數:45
回答數:1
收藏數:0
ml100-2-d20
ml100-2
您好,在Day20範例中,透過刪除房價預測數據中的GrLivArea特徵離群值,藉此提高訓練模型準確度
原始0.846643681071632 提升至0.8765717431842281
因此仿照這個方法觀察其他可能具有離群值的特徵如LotFrontage和LotArea
針對原來限制繼續對特徵做以下限制如:
1.將 GrLivArea 限制在 800 到 2500 以內,LotArea限制在50000以內, 捨棄離群值
->獲得0.8773816341077023
2.將 GrLivArea 限制在 800 到 2500 以內,LotArea限制在50000以內,LotFrontage限制在200以內,捨棄離群值
->獲得0.8773532816009754
3.將 GrLivArea 限制在 800 到 2500 以內,將LotFrontage限制在200以內,捨棄離群值
->獲得0.8760986864850135
該如何說明第1點增加"LotFrontage限制在200以內"限制後,訓練的模型準確度降低了?
以及有什麼方法可以驗證這個說明是具有說服力的呢?
感謝解答
回答列表
-
2019/05/29 上午 10:39張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
該如何說明第1點增加"LotFrontage限制在200以內"限制後,訓練的模型準確度降低了?
=> 有可能是你的離群值不代表是模型的離群值,也許對模型來說是有益的,但被你刪掉導致資訊下降。