Loading...

集中在兩端的資料要怎麼去偏化或是怎麼處理比較好? - Cupoy

我想這種資料應該會影響的ML的結果, 請問這種資料要怎麼去偏化呢?我試了作業裡的log1P, box...

ml100-2,ml100-2-d21

AI共學社群

集中在兩端的資料要怎麼去偏化或是怎麼處理比較好?

2019/06/13 下午 11:56

機器學習共學討論版

Simon Li

觀看數：23

回答數：2

收藏數：2

ml100-2

ml100-2-d21

我想這種資料應該會影響的ML的結果, 請問這種資料要怎麼去偏化呢?

我試了作業裡的log1P, boxcox裡的labmda的-5到5之間的各種參數.

有其他更好的方法嗎?

回答列表

2019/06/17 上午 11:12

陳明佑 (Ming You Chen)

贊同數：1

不贊同數：0

留言數：1

同學問得很好 : 這種狀態其實很典型

這種資料一出現, 首先要去查或者提出疑問的是 : 最右邊一行那麼高是怎麼回事?

因為其餘部分的偏態, 在自然界中也還算合理現象,

只是為了要提高模型準確度, 所以去偏後效果會比較好

但右邊那條就是不合理 / 不自然的現象了

這種現象通常的原因是 : 右邊的數值, 其實是缺值的補缺值

假如是這樣, 我們就應該

1. 把"欄位是否為右邊的值"當成另一個新創欄位 (保險起見, 留個特徵紀錄)

2. 把右邊那排的值還原成缺值

3. 剩餘數值中位數補缺

4. log1p 去除偏態
2019/06/18 下午 03:45

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

這種資料稱為「bimodal distribution 雙峰分佈」，可以提供給你這篇文章作參考：https://math.stackexchange.com/questions/2149570/how-to-generate-sample-from-bimodal-distribution ，建議閱讀後還是有問題再提出來討論：）