什麼是完全隨機 隨機缺失?
2019/05/11 上午 10:53
機器學習共學討論版
YU Xiu Chen
觀看數:4
回答數:1
收藏數:0
ml100-2
ml100-2-d19
什麼是完全隨機 隨機缺失?
回答列表
-
2019/05/13 下午 01:12陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:1
"完全隨機缺失"與"隨機缺失"兩者有點微妙的差別
我們先參考維基百科 :
完全隨機缺失的
假設一個特殊變數Y有缺失數據。如果Y缺失數據的機率與Y本身的值或在該數據組中任何其他變數的值都無關的話,那麼Y的數據就是完全隨機缺失的(MCAR)。
隨機缺失的
如果在分析中控制了其他變數後,Y缺失數據的機率與Y值無關,則稱Y的數據為隨機缺失(MAR)的,即: Pr(Y missing|Y,X)=Pr(Y missing|X)
上述兩者個差別在 :
隨機缺失可能與其他變數X有關
完全隨機缺失則與任何其他變數X也沒關係
舉個例子 : 假如有一個房產預測競賽
當我們研究欄位時, 如果某個欄位(例如 : 經緯度)
只要是"金門縣"的房產交易資料, 就會是缺失值
明顯與"行政區"這個特徵有關, 我們就稱這個欄位屬於"隨機缺失"
如果缺失發生的機率, 與任何欄位都沒關係(例如 : 屋齡)
我們就稱為 "完全隨機缺失"
如果我們發現, "所有人性別"一欄, 只要持有者是法人就會是缺失值
則缺失本身與Y值自己有關, 屬於"非隨機缺失"
希望這樣能有助於你的了解