關於D16提到的Kernel Density Estimation?
在D16有提到KDE,想請較一些關於KDE的問題,順便闡述自己對於KDE的理解是否有誤(屬於問題的部分用紅字劃記)。
在無母數的的狀況下通常會使用直方圖來檢視資料的分布,直方圖的問題在於相同分組內的資料機率是相同的,對於個別資料分散計算是有誤的,每個變數應該要有自己的機率,且因為資料是離散的,所以沒出現的資料會被當作機率為0。
然而沒出現的資料就不應該認為機率分布是0,因為如果一個20~30歲的還款能力27歲,出現4次 29歲出5次,而鄰近資料28歲應該也會是差不多的出現次數而不是0。所以KDE是利用分組內資料去用一個非負函數K(如:高斯,常態分布等)計算各個變數的變數機率,最後就會形成一個連續的機率分布折線圖。
另外想問這個KDE方法會因為分組的bins不同而有明顯的資料分布的影響。實務上有甚麼方法可以避免這個問題嗎?
回答列表
-
2020/09/08 上午 02:03張維元 (WeiYuan)贊同數:3不贊同數:0留言數:0
嗨,蔚廷你好
這個問題問得很好,很值得深入討論!你對於 KDE 的理解與脈絡看起來沒什麼問題。另外「怎麼分組」是會造成影響的沒錯,大概有幾個點可以作為參考策略:
1. 對資料的理解,人為訂出一個有意義的分組
2. 利用程式實驗,去嘗試不同的分組造成的結果有什麼差異
3. 使用預設的分組,預設會找出有最佳的資料分佈時的分組
如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個課程:【資料科學家的 12 堂心法課】,歡迎一起來玩玩!(By the way,我並不是主辦單位的人員,所以如果覺得我回答得不好,不要找他們抱怨/客訴XD)
