那要如何挑出這些離散資料呢? 若使用變異係數排除離散值,但到底係數要多大才需要排除
2019/08/26 下午 10:56
機器學習共學討論版
Ho Da Da
觀看數:103
回答數:4
收藏數:0
ml100-3
ml100-3-d01
1.使用MAE評估誤差,但實際值有些可能因為某些因素,造成實際值無參考作用,甚至影響整個預測模型。那要如何挑出這些離散資料呢?
2.若使用變異係數排除離散值,但到底係數要多大才要排除,排除後再用變異係數計算離散值再排除,好像沒完沒了,還請解惑
回答列表
-
2019/08/27 上午 10:55張維元 (WeiYuan)贊同數:0不贊同數:3留言數:1
可以用 df 做 select_dtypes 選出你要的型態:
```
app_train.select_dtypes(include=['float64', 'int64'])
```
參考:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.html
不確定有沒有回覆到你的疑問,有任何問題再提出來:)
-
2019/09/01 下午 06:48張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
這...只是選出型態... 問題是...怎麼排除離散值...
=> 嗨,你這邊要說的「離散值」還是「異常值 Outlier」?
-
2019/09/03 下午 00:02Ho Da Da贊同數:0不贊同數:0留言數:0
是的,是outlier
-
2019/09/03 下午 02:34張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
「是的,是outlier」
=> outlier 應該叫離異值才對,離散通常是指「非連續的資料」。
如何挑出這些離散資料可以用統計的方式或是畫圖,移除前後多少百分比的資料之類的。還是要根據你的資料或模型做評估。