集中在兩端的資料要怎麼去偏化或是怎麼處理比較好?
2019/06/13 下午 11:56
機器學習共學討論版
Simon Li
觀看數:23
回答數:2
收藏數:2
ml100-2
ml100-2-d21
我想這種資料應該會影響的ML的結果, 請問這種資料要怎麼去偏化呢?
我試了作業裡的log1P, boxcox裡的labmda的-5到5之間的各種參數.
有其他更好的方法嗎?
回答列表
-
2019/06/17 上午 11:12陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:1
同學問得很好 : 這種狀態其實很典型
這種資料一出現, 首先要去查或者提出疑問的是 : 最右邊一行那麼高是怎麼回事?
因為其餘部分的偏態, 在自然界中也還算合理現象,
只是為了要提高模型準確度, 所以去偏後效果會比較好
但右邊那條就是不合理 / 不自然的現象了
這種現象通常的原因是 : 右邊的數值, 其實是缺值的補缺值
假如是這樣, 我們就應該
1. 把"欄位是否為右邊的值"當成另一個新創欄位 (保險起見, 留個特徵紀錄)
2. 把右邊那排的值還原成缺值
3. 剩餘數值中位數補缺
4. log1p 去除偏態
-
2019/06/18 下午 03:45張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
這種資料稱為「bimodal distribution 雙峰分佈」,可以提供給你這篇文章作參考:https://math.stackexchange.com/questions/2149570/how-to-generate-sample-from-bimodal-distribution ,建議閱讀後還是有問題再提出來討論:)