logo
Loading...

期中考(Enron Fraud Dataset)的問題 - Cupoy

對於Day51-53 期中考(Enron Fraud Dataset)的問題, 嘗試使用前面課程教的...

期中考(Enron Fraud Dataset)的問題

2020/06/23 下午 11:07
機器學習共學討論版
Kevin Chen
觀看數:33
回答數:2
收藏數:2

對於Day51-53 期中考(Enron Fraud Dataset)的問題, 嘗試使用前面課程教的方法如下:

1.數值型的欄位缺值補 0

2.數值型的欄位用log去偏態

3.數值型的欄位去outlier 

4.數值型的欄位MinMaxScaler

5.用葉編碼產生新特徵: 梯度提升樹調整參數並擬合後, 再將葉編碼 (*.apply) 結果做獨熱, 再用邏輯斯回歸

6.使用三種模型 : 邏輯斯迴歸 / 梯度提升機 / 隨機森林, 參數使用 Grid Search 尋找

7.集成: 混合泛化 (Blending)

8.集成: 堆疊泛化 (Stacking)

結果正確率只達到0.85, 請問還需要注意什麼才能達到0.9以上? 謝謝 !

回答列表

  • 2020/06/24 上午 04:20
    Yang Wang
    贊同數:0
    不贊同數:0
    留言數:4

    這次競賽的評分標準是用 auc roc score 並不是用 accuracy 喔!

    我做了滿多特徵工程也只有 0.7 多,請問你是怎麼達到 0.85 的?

  • 2020/06/25 下午 06:06
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:2

    可以試著進行看看「特徵選擇」或是「特徵組合」的手法。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃