關於選擇模型前的Normality Test
教練們好:
關於到第12課的code,根據下面這篇所提到的:
https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/
"If a data sample is not Gaussian, then the assumptions of parametric statistical tests are violated and nonparametric statistical methods must be used."
如果Logistic Regression是屬於parametric machine learning algorithms的其中之一個,那我們在使用此模型之前,是不是都需要採用Normality Test?
換句話說,在鐵達尼號這個case,如果各個column的資料不符合常態分佈的話,我們是不是就不能使用parametric model,而應該直接使用non-parametric model,例如:k-Nearest Neighbors 、Support Vector Machines這些?
感謝答覆。
回答列表
-
2020/05/22 下午 08:06Jeffrey贊同數:0不贊同數:0留言數:0
基本上, 會根據DATA 的型態決定使用的方式, 因為相對地可以確認有得到好的結果,
在鐵達尼號這個case,如果各個column的資料不符合常態分佈的話,可以直接使用non-parametric model;
或是把資料在清洗, 再來看決定用哪種方式.
-
2020/05/23 上午 01:25張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,James
以嚴謹一點的統計學來說,你的理解是正確的。不過實務上,我們不一定會先做 Normality Test 來檢驗,我們可能會直接假設資料符合常態分佈(當然這不是一個嚴謹的做法)。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃