期中考(Enron Fraud Dataset)的問題
2020/06/23 下午 11:07
機器學習共學討論版
Kevin Chen
觀看數:33
回答數:2
收藏數:2
對於Day51-53 期中考(Enron Fraud Dataset)的問題, 嘗試使用前面課程教的方法如下:
1.數值型的欄位缺值補 0
2.數值型的欄位用log去偏態
3.數值型的欄位去outlier
4.數值型的欄位MinMaxScaler
5.用葉編碼產生新特徵: 梯度提升樹調整參數並擬合後, 再將葉編碼 (*.apply) 結果做獨熱, 再用邏輯斯回歸
6.使用三種模型 : 邏輯斯迴歸 / 梯度提升機 / 隨機森林, 參數使用 Grid Search 尋找
7.集成: 混合泛化 (Blending)
8.集成: 堆疊泛化 (Stacking)
結果正確率只達到0.85, 請問還需要注意什麼才能達到0.9以上? 謝謝 !
回答列表
-
2020/06/24 上午 04:20Yang Wang贊同數:0不贊同數:0留言數:4
這次競賽的評分標準是用 auc roc score 並不是用 accuracy 喔!
我做了滿多特徵工程也只有 0.7 多,請問你是怎麼達到 0.85 的?
-
2020/06/25 下午 06:06張維元 (WeiYuan)贊同數:1不贊同數:0留言數:2
可以試著進行看看「特徵選擇」或是「特徵組合」的手法。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃