logo
Loading...

那要如何挑出這些離散資料呢? 若使用變異係數排除離散值,但到底係數要多大才需要排除 - Cupoy

1.使用MAE評估誤差,但實際值有些可能因為某些因素,造成實際值無參考作用,甚至影響整個預測模型。那...

ml100-3,ml100-3-d01

那要如何挑出這些離散資料呢? 若使用變異係數排除離散值,但到底係數要多大才需要排除

2019/08/26 下午 10:56
機器學習共學討論版
Ho Da Da
觀看數:103
回答數:4
收藏數:0
ml100-3
ml100-3-d01

1.使用MAE評估誤差,但實際值有些可能因為某些因素,造成實際值無參考作用,甚至影響整個預測模型。那要如何挑出這些離散資料呢?

2.若使用變異係數排除離散值,但到底係數要多大才要排除,排除後再用變異係數計算離散值再排除,好像沒完沒了,還請解惑

回答列表

  • 2019/08/27 上午 10:55
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:3
    留言數:1

    可以用 df 做 select_dtypes 選出你要的型態:


    ```

    app_train.select_dtypes(include=['float64', 'int64'])

    ```


    參考:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.html


    不確定有沒有回覆到你的疑問,有任何問題再提出來:)

  • 2019/09/01 下午 06:48
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    這...只是選出型態... 問題是...怎麼排除離散值...


    => 嗨,你這邊要說的「離散值」還是「異常值 Outlier」?

  • 2019/09/03 下午 00:02
    Ho Da Da
    贊同數:0
    不贊同數:0
    留言數:0

    是的,是outlier

  • 2019/09/03 下午 02:34
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    是的,是outlier


    => outlier 應該叫離異值才對,離散通常是指「非連續的資料」。


    如何挑出這些離散資料可以用統計的方式或是畫圖,移除前後多少百分比的資料之類的。還是要根據你的資料或模型做評估。