logo
Loading...

對於母體非常態的資料有進行去偏的必要嗎? - Cupoy

請問對於母體非常態的資料有進行去偏的必要嗎?換句話說,由於母體分布無法得知,進行去偏後的結果必然會更...

ml100-3,ml100-3-d23

對於母體非常態的資料有進行去偏的必要嗎?

2020/03/05 下午 06:34
機器學習共學討論版
劉怡安
觀看數:30
回答數:2
收藏數:0
ml100-3
ml100-3-d23

請問對於母體非常態的資料有進行去偏的必要嗎?

換句話說,由於母體分布無法得知,進行去偏後的結果必然會更好嗎?

回答列表

  • 2020/03/05 下午 11:07
    李子明
    贊同數:2
    不贊同數:0
    留言數:3

    因為母體是無法全面得知的,所以母體是沒辦法去偏的。

    能得到的是取樣之後的子集,子集是可以去偏的。

    一般來講,我們的取樣希望是均勻的,所以可以期待子集的分佈是與母體一致的。


    依一般的模型(沒有特別設計過的),我們會希望分佈是常態的,因為對應於各種結果的資訊量才會是一樣。


    舉個例子來說,X資料為「a z a c a o z a a b」對應的Y為「1 1 1 2 1 0 1 1 1 0」,這樣子的資料,我們用一個很爛的模型,這個模型爛到什麼程度呢?就是不管輸入是什麼,我們都輸出為「1」,那麼這個很爛的模型的正確率可以高達七成,各位看倌覺得合理嗎?


    我們覺得不可以這麼擺爛,該做點什麼事情了,但分佈太偏了,這使得結果為2的資訊量太少了,資訊量少使得機器學習正確判斷為2的路徑就會是少的,換句話說,對於2的判斷,不會像判斷0那樣子的精準,更遑論是1了。


    所以,去偏的目的,是為了讓機器學習獲得一樣多的路徑來通往各種不同的結果,而不是為了與母體分佈保持一致而去偏的。

  • 2020/03/06 上午 01:10
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    嗨,怡安


    根據 中央極限定理 ,我們會認為「任何分布,當資料量夠大的情況下會趨近於常態分佈」。這篇有一篇參考資料可以讀一下。因此,大部分的模型對於常態的資料的分類效果也會比較好。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的 GITHUB 帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃