logo
Loading...

【QA】特徵挑選過程中,常見的假設檢定有哪些? - Cupoy

在建立模型前,需要先挑選出真正重要的特徵,才能讓模型得到最好的訓練結果,其中假設檢定是一個常見的探討...

【QA】特徵挑選過程中,常見的假設檢定有哪些?

2021/09/21 下午 03:58
機器學習共學討論版
王健安
觀看數:4
回答數:1
收藏數:0

在建立模型前,需要先挑選出真正重要的特徵,才能讓模型得到最好的訓練結果,其中假設檢定是一個常見的探討技巧,那假設檢定具體來說使用時機為何呢?有哪些具體的方法呢?

回答列表

  • 2021/09/21 下午 03:59
    王健安
    贊同數:0
    不贊同數:0
    留言數:0

    假設檢定使用在某個連續便項在某個類別變項的各組別之間是否有差異,有差異代表不同組別的連續變項大致上會有不同的範圍,可以顯示出這兩個特徵之間存在潛在的影響。以下為常見的具體假設檢定的方法: 1. Student's t test 2. Analysis of Variance (ANOVA) 3. Wilcoxon signed rank test 4. Kruskal Wallis test 5. Hotelling's T-square 6. Repeated measure ANOVA Student's t test 是探討某個連續變數在兩組組別的特徵之間的平均數是否有差異,例如:身高在性別(男、女)之間是否有差異、BMI在是否有高血壓(有高血壓、沒有高血壓)之間是否有差異,使用時須要符合連續變項呈現常態分佈、資料之間彼此互相獨立的前提假設。通常使用 p-value 並以 0.05 作為 threshold 判斷該連續變項在兩個組別的特徵之間是否有差異,小於 0.05 代表有差異,否則則沒有差異。 ANOVA 與 Student's t test 的概念類似,差別在於 ANOVA 探討的類別特徵可以超過兩組,例如:身高在居住縣市之間(臺北市、新北勢、桃園市、...)是否有差異,判斷某個連續性特徵在類別特徵各組別之間是否有差異的方法與 Student's t test 一樣是使用 p-value 判斷,小於 0.05 代表有差異,否則則沒有差異。但 ANOVA 除了需要符合連續變項呈現常態分佈、資料之間彼此互相獨立的前提假設外,每組的連續特徵的變異數要相同,可以透過 Bartlett test 加以驗證。 當連續型特徵不符合常態分佈,或是變異數不相等時,就需要使用 Wilcoxon signed rank test 或 Kruskal-Wallis test 做代替,前者是探討連續型特徵的中位數在兩組別的類別特徵之間是否有差異,後者是探討探討連續型特徵的中位數在兩組別以上的類別特徵之間是否有差異。 當有同個樣本重複測量而有數筆資料時,則需要改用 Hotelling's T-square 或 Repeat measure ANOVA,前者是探討連續型特徵的趨勢變化在兩組別的類別特徵之間是否有差異,後者是探討探討連續型特徵的趨勢變化在兩組別以上的類別特徵之間是否有差異。 以上的假設檢定方法都在python的 scipy 套件中可以使用。 參考資料: T Test (Student’s T-Test) Definition and Examples https://www.statisticshowto.com/probability-and-statistics/t-test/ 什麼是變異數分析(ANOVA)? https://www.tibco.com/zh-hant/reference-center/what-is-analysis-of-variance-anova 魏克生符號檢定(Wilcoxon sign rank)與符號檢定(sign rank)-SPSS無母數統計 https://www.yongxi-stat.com/%E9%AD%8F%E5%85%8B%E7%94%9F%E7%AC%A6%E8%99%9F%E6%AA%A2%E5%AE%9A_%E7%84%A1%E6%AF%8D%E6%95%B8%E7%B5%B1%E8%A8%88/ 無母數統計檢定 https://itunesu-assets.itunes.apple.com/apple-assets-us-std-000001/CobaltPublic3/v4/de/a6/56/dea65603-072f-0678-b2dc-e07d67536737/304-7970202547785007611-14.4.pdf Hotelling’s T-Square https://online.stat.psu.edu/stat505/lesson/7/7.1/7.1.3 單因子相依變異數分析 (Repeated measured ANOVA) –統計說明與SPSS操作 https://www.yongxi-stat.com/one-way-repeat-measure-anova/