對於母體非常態的資料有進行去偏的必要嗎?
2020/03/05 下午 06:34
機器學習共學討論版
劉怡安
觀看數:30
回答數:2
收藏數:0
ml100-3
ml100-3-d23
請問對於母體非常態的資料有進行去偏的必要嗎?
換句話說,由於母體分布無法得知,進行去偏後的結果必然會更好嗎?
回答列表
-
2020/03/05 下午 11:07李子明贊同數:2不贊同數:0留言數:3
因為母體是無法全面得知的,所以母體是沒辦法去偏的。
能得到的是取樣之後的子集,子集是可以去偏的。
一般來講,我們的取樣希望是均勻的,所以可以期待子集的分佈是與母體一致的。
依一般的模型(沒有特別設計過的),我們會希望分佈是常態的,因為對應於各種結果的資訊量才會是一樣。
舉個例子來說,X資料為「a z a c a o z a a b」對應的Y為「1 1 1 2 1 0 1 1 1 0」,這樣子的資料,我們用一個很爛的模型,這個模型爛到什麼程度呢?就是不管輸入是什麼,我們都輸出為「1」,那麼這個很爛的模型的正確率可以高達七成,各位看倌覺得合理嗎?
我們覺得不可以這麼擺爛,該做點什麼事情了,但分佈太偏了,這使得結果為2的資訊量太少了,資訊量少使得機器學習正確判斷為2的路徑就會是少的,換句話說,對於2的判斷,不會像判斷0那樣子的精準,更遑論是1了。
所以,去偏的目的,是為了讓機器學習獲得一樣多的路徑來通往各種不同的結果,而不是為了與母體分佈保持一致而去偏的。
-
2020/03/06 上午 01:10張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0