Github上傳作業出現錯誤
2019/10/15 下午 01:00
機器學習共學討論版
吳海成
觀看數:144
回答數:2
收藏數:1
ml100-3
ml100-3-d48
gaussian mixture
在 day 48 的 kaggle 比賽中,我看到一個 0.99 以上 accuracy 的 notebook
https://www.kaggle.com/chahat1/data-science-london-classification
他的致勝關鍵是用了 GaussianMixture 把 feature 轉換,然後才放進 estimator 去 fit 和 predict。
請問在什麼情況下會用 GaussianMixture 來做 feature engineering?
另外為什麼 GuassianMixture 在這例子中效果會這麼顯著?其他的 preprocessing 例如 PCA, StandardScaler 等基本上作用不大,但 GaussianMixture 一下子便把 accuracy 由 0.9 推上 0.99 了...
回答列表
-
2019/10/15 下午 02:01陳明佑 (Ming You Chen)贊同數:1不贊同數:1留言數:0
依照GMM的屬性, 如果目標在某一個或一些特徵上有明顯的分群
每一群的特性符合常態分布, 這時候用GMM可能會分得很好
特徵工程中有一種作法叫做 binning (中文有的翻裝箱法)
這種工程方式如果用人為指定, 可能會有認知上的偏差
但如果採用 Guassian Mixture Model, 就可以依照資料切出最適合的邊界
回到問題本身, 應該是0/1資料確實是常態分布, 這種分群法才會好吧
-
2019/10/17 下午 10:40張維元 (WeiYuan)贊同數:1不贊同數:1留言數:0
「另外為什麼 GuassianMixture 在這例子中效果會這麼顯著?」=> 經驗跟常識吧?