logo
Loading...

Github上傳作業出現錯誤 - Cupoy

在 day 48 的 kaggle 比賽中,我看到一個 0.99 以上 accuracy 的 not...

ml100-3,ml100-3-d48,gaussian mixture

Github上傳作業出現錯誤

2019/10/15 下午 01:00
機器學習共學討論版
吳海成
觀看數:144
回答數:2
收藏數:1
ml100-3
ml100-3-d48
gaussian mixture

在 day 48 的 kaggle 比賽中,我看到一個 0.99 以上 accuracy 的 notebook


https://www.kaggle.com/chahat1/data-science-london-classification


他的致勝關鍵是用了 GaussianMixture 把 feature 轉換,然後才放進 estimator 去 fit  和 predict。


請問在什麼情況下會用 GaussianMixture 來做 feature engineering? 


另外為什麼 GuassianMixture 在這例子中效果會這麼顯著?其他的 preprocessing 例如 PCA, StandardScaler 等基本上作用不大,但 GaussianMixture 一下子便把 accuracy 由 0.9 推上 0.99 了...

回答列表

  • 2019/10/15 下午 02:01
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:1
    留言數:0

    依照GMM的屬性, 如果目標在某一個或一些特徵上有明顯的分群

    每一群的特性符合常態分布, 這時候用GMM可能會分得很好


    特徵工程中有一種作法叫做 binning (中文有的翻裝箱法)

    這種工程方式如果用人為指定, 可能會有認知上的偏差

    但如果採用 Guassian Mixture Model, 就可以依照資料切出最適合的邊界


    回到問題本身, 應該是0/1資料確實是常態分布, 這種分群法才會好吧

  • 2019/10/17 下午 10:40
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:1
    留言數:0

    另外為什麼 GuassianMixture 在這例子中效果會這麼顯著?」=> 經驗跟常識吧?