關於D16提到的Kernel Density Estimation?

2020/09/08 上午 01:48

EDA: 不同數值範圍間的特徵如何檢視/繪圖與樣式Kernel Density Estimation (KDE)

蘇蔚廷

觀看數：21

回答數：1

收藏數：1

在D16有提到KDE，想請較一些關於KDE的問題，順便闡述自己對於KDE的理解是否有誤(屬於問題的部分用紅字劃記)。

在無母數的的狀況下通常會使用直方圖來檢視資料的分布，直方圖的問題在於相同分組內的資料機率是相同的，對於個別資料分散計算是有誤的，每個變數應該要有自己的機率，且因為資料是離散的，所以沒出現的資料會被當作機率為0。

然而沒出現的資料就不應該認為機率分布是0，因為如果一個20~30歲的還款能力27歲，出現4次 29歲出5次，而鄰近資料28歲應該也會是差不多的出現次數而不是0。所以KDE是利用分組內資料去用一個非負函數K(如:高斯，常態分布等)計算各個變數的變數機率，最後就會形成一個連續的機率分布折線圖。

另外想問這個KDE方法會因為分組的bins不同而有明顯的資料分布的影響。實務上有甚麼方法可以避免這個問題嗎?