logo
Loading...

關於選擇模型前的Normality Test - Cupoy

教練們好:關於到第12課的code,根據下面這篇所提到的:https://machinelearni...

ml100,ml100-d12

關於選擇模型前的Normality Test

2020/05/21 下午 03:18
機器學習共學討論版
James Chang
觀看數:42
回答數:2
收藏數:1
ml100
ml100-d12

教練們好:


關於到第12課的code,根據下面這篇所提到的:

https://machinelearningmastery.com/a-gentle-introduction-to-normality-tests-in-python/


"If a data sample is not Gaussian, then the assumptions of parametric statistical tests are violated and nonparametric statistical methods must be used."


如果Logistic Regression是屬於parametric machine learning algorithms的其中之一個,那我們在使用此模型之前,是不是都需要採用Normality Test? 


換句話說,在鐵達尼號這個case,如果各個column的資料不符合常態分佈的話,我們是不是就不能使用parametric model,而應該直接使用non-parametric model,例如:k-Nearest Neighbors 、Support Vector Machines這些?


感謝答覆。

回答列表

  • 2020/05/22 下午 08:06
    Jeffrey
    贊同數:0
    不贊同數:0
    留言數:0

    基本上, 會根據DATA 的型態決定使用的方式, 因為相對地可以確認有得到好的結果,

    在鐵達尼號這個case,如果各個column的資料不符合常態分佈的話,可以直接使用non-parametric model;

    或是把資料在清洗, 再來看決定用哪種方式.

  • 2020/05/23 上午 01:25
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,James 


    以嚴謹一點的統計學來說,你的理解是正確的。不過實務上,我們不一定會先做 Normality Test 來檢驗,我們可能會直接假設資料符合常態分佈(當然這不是一個嚴謹的做法)。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃