補缺失值造成的破壞,有沒有一個可以接受的容忍值?
2021/07/05 下午 03:52
資料清洗(Data Cleaning)
Ma Chao Ting
觀看數:24
回答數:1
收藏數:0
補缺失值造成的破壞,有沒有一個可以接受的容忍值? 通常會怎麼去判斷呢
回答列表
-
2021/07/05 下午 04:45Lance贊同數:0不贊同數:0留言數:0
我們沒有嚴格定義一個容忍值來定義缺失值造成的破壞性,但可以定義一個量值來衡量兩個機率分佈間的距離或相似性,如卡方檢驗(f-divergence)、KL-divergence,在實務上會使用各種填補方式填完,再透過這兩種方式或可視化來驗證填補前後的破壞性,最後取破壞最小的方式來填補。(受限課程長度的限制,且這兩種方法牽涉的數學背景較深,故上課並未提到) [KL-divergence](https://machinelearningmastery.com/divergence-between-probability-distributions/) [f-divergence](https://blog.csdn.net/UESTC_C2_403/article/details/75208644)