Loading...

Github上傳作業出現錯誤 - Cupoy

在 day 48 的 kaggle 比賽中，我看到一個 0.99 以上 accuracy 的 not...

ml100-3,ml100-3-d48,gaussian mixture

AI共學社群

Github上傳作業出現錯誤

2019/10/15 下午 01:00

機器學習共學討論版

吳海成

觀看數：144

回答數：2

收藏數：1

ml100-3

ml100-3-d48

gaussian mixture

在 day 48 的 kaggle 比賽中，我看到一個 0.99 以上 accuracy 的 notebook

https://www.kaggle.com/chahat1/data-science-london-classification

他的致勝關鍵是用了 GaussianMixture 把 feature 轉換，然後才放進 estimator 去 fit 和 predict。

請問在什麼情況下會用 GaussianMixture 來做 feature engineering?

另外為什麼 GuassianMixture 在這例子中效果會這麼顯著？其他的 preprocessing 例如 PCA, StandardScaler 等基本上作用不大，但 GaussianMixture 一下子便把 accuracy 由 0.9 推上 0.99 了...

回答列表

2019/10/15 下午 02:01

陳明佑 (Ming You Chen)

贊同數：1

不贊同數：1

留言數：0

依照GMM的屬性, 如果目標在某一個或一些特徵上有明顯的分群

每一群的特性符合常態分布, 這時候用GMM可能會分得很好

特徵工程中有一種作法叫做 binning (中文有的翻裝箱法)

這種工程方式如果用人為指定, 可能會有認知上的偏差

但如果採用 Guassian Mixture Model, 就可以依照資料切出最適合的邊界

回到問題本身, 應該是0/1資料確實是常態分布, 這種分群法才會好吧
2019/10/17 下午 10:40

張維元 (WeiYuan)

贊同數：1

不贊同數：1

留言數：0

「另外為什麼 GuassianMixture 在這例子中效果會這麼顯著？」=> 經驗跟常識吧？