logo
Loading...

什麼是完全隨機 隨機缺失? - Cupoy

什麼是完全隨機 隨機缺失?

ml100-2,ml100-2-d19

什麼是完全隨機 隨機缺失?

2019/05/11 上午 10:53
機器學習共學討論版
YU Xiu Chen
觀看數:4
回答數:1
收藏數:0
ml100-2
ml100-2-d19

什麼是完全隨機 隨機缺失?

回答列表

  • 2019/05/13 下午 01:12
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:0
    留言數:1

    "完全隨機缺失"與"隨機缺失"兩者有點微妙的差別


    我們先參考維基百科 : 

    完全隨機缺失的

    假設一個特殊變數Y有缺失數據。如果Y缺失數據的機率與Y本身的值或在該數據組中任何其他變數的值都無關的話,那麼Y的數據就是完全隨機缺失的(MCAR)。

    隨機缺失的

    如果在分析中控制了其他變數後,Y缺失數據的機率與Y值無關,則稱Y的數據為隨機缺失(MAR)的,即: Pr(Y missing|Y,X)=Pr(Y missing|X)


    上述兩者個差別在 : 

    隨機缺失可能與其他變數X有關

    完全隨機缺失則與任何其他變數X也沒關係


    舉個例子 : 假如有一個房產預測競賽

    當我們研究欄位時, 如果某個欄位(例如 : 經緯度)

    只要是"金門縣"的房產交易資料, 就會是缺失值

    明顯與"行政區"這個特徵有關, 我們就稱這個欄位屬於"隨機缺失"

    如果缺失發生的機率, 與任何欄位都沒關係(例如 : 屋齡)

    我們就稱為 "完全隨機缺失"

    如果我們發現, "所有人性別"一欄, 只要持有者是法人就會是缺失值

    則缺失本身與Y值自己有關, 屬於"非隨機缺失"


    希望這樣能有助於你的了解