logo
Loading...

集中在兩端的資料要怎麼去偏化或是怎麼處理比較好? - Cupoy

我想這種資料應該會影響的ML的結果, 請問這種資料要怎麼去偏化呢?我試了作業裡的log1P, box...

ml100-2,ml100-2-d21

集中在兩端的資料要怎麼去偏化或是怎麼處理比較好?

2019/06/13 下午 11:56
機器學習共學討論版
Simon Li
觀看數:23
回答數:2
收藏數:2
ml100-2
ml100-2-d21

我想這種資料應該會影響的ML的結果, 請問這種資料要怎麼去偏化呢?

我試了作業裡的log1P, boxcox裡的labmda的-5到5之間的各種參數.

有其他更好的方法嗎?

回答列表

  • 2019/06/17 上午 11:12
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:0
    留言數:1

    同學問得很好 : 這種狀態其實很典型

    這種資料一出現, 首先要去查或者提出疑問的是 : 最右邊一行那麼高是怎麼回事?


    因為其餘部分的偏態, 在自然界中也還算合理現象, 

    只是為了要提高模型準確度, 所以去偏後效果會比較好

    但右邊那條就是不合理 / 不自然的現象了


    這種現象通常的原因是 : 右邊的數值, 其實是缺值的補缺值

    假如是這樣, 我們就應該

    1. 把"欄位是否為右邊的值"當成另一個新創欄位 (保險起見, 留個特徵紀錄)

    2. 把右邊那排的值還原成缺值

    3. 剩餘數值中位數補缺

    4. log1p 去除偏態

  • 2019/06/18 下午 03:45
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    這種資料稱為「bimodal distribution 雙峰分佈」,可以提供給你這篇文章作參考:https://math.stackexchange.com/questions/2149570/how-to-generate-sample-from-bimodal-distribution ,建議閱讀後還是有問題再提出來討論:)