期中考(Enron Fraud Dataset)的問題

2020/06/23 下午 11:07

機器學習共學討論版

Kevin Chen

觀看數：33

回答數：2

收藏數：2

對於Day51-53 期中考(Enron Fraud Dataset)的問題, 嘗試使用前面課程教的方法如下:

1.數值型的欄位缺值補 0

2.數值型的欄位用log去偏態

3.數值型的欄位去outlier

4.數值型的欄位MinMaxScaler

5.用葉編碼產生新特徵: 梯度提升樹調整參數並擬合後, 再將葉編碼 (*.apply) 結果做獨熱, 再用邏輯斯回歸

6.使用三種模型 : 邏輯斯迴歸 / 梯度提升機 / 隨機森林, 參數使用 Grid Search 尋找

7.集成: 混合泛化 (Blending)

8.集成: 堆疊泛化 (Stacking)

結果正確率只達到0.85, 請問還需要注意什麼才能達到0.9以上? 謝謝 !