logo
Loading...

使用dataframe欄位篩選離群值,卻導致訓練的模型準確度降低了? - Cupoy

您好,在Day20範例中,透過刪除房價預測數據中的GrLivArea特徵離群值,藉此提高訓練模型準確...

ml100-2-d20,ml100-2

使用dataframe欄位篩選離群值,卻導致訓練的模型準確度降低了?

2019/05/28 05:43 AM
機器學習新手論壇
林僅軒
觀看數:0
回答數:1
收藏數:0
ml100-2-d20
ml100-2

您好,在Day20範例中,透過刪除房價預測數據中的GrLivArea特徵離群值,藉此提高訓練模型準確度

原始0.846643681071632 提升至0.8765717431842281

因此仿照這個方法觀察其他可能具有離群值的特徵如LotFrontage和LotArea

針對原來限制繼續對特徵做以下限制如:

1.將 GrLivArea 限制在 800 到 2500 以內,LotArea限制在50000以內, 捨棄離群值

->獲得0.8773816341077023

2.將 GrLivArea 限制在 800 到 2500 以內,LotArea限制在50000以內,LotFrontage限制在200以內,捨棄離群值

->獲得0.8773532816009754

3.將 GrLivArea 限制在 800 到 2500 以內,將LotFrontage限制在200以內,捨棄離群值

->獲得0.8760986864850135


該如何說明第1點增加"LotFrontage限制在200以內"限制後,訓練的模型準確度降低了?

以及有什麼方法可以驗證這個說明是具有說服力的呢?

感謝解答