logo
Loading...

資料分析推論問題? - Cupoy

在第13天的作業中,目標是觀察離散化的特徵是否對目標值的預測有幫助我在將DAYS_EMPLOYED離...

ml100-2,離散化,ml100-2-d13

資料分析推論問題?

2019/04/27 下午 10:29
機器學習共學討論版
Ray Xie
觀看數:3
回答數:1
收藏數:0
ml100-2
離散化
ml100-2-d13

在第13天的作業中,目標是觀察離散化的特徵是否對目標值的預測有幫助

我在將DAYS_EMPLOYED離散化後畫出了與TARGET的長條圖

發現隨著DAYS_EMPLOYED的時間增長,還款能力似乎也跟著上升

但我將DAYS EMPLOYED 有 40年以上的資料擷取出來後,去計算了還款能力不好案例的數量

發現只有一個,感覺上這代表在dataset裡面,擁有40年以上工作的人還款能力都是好的

所以得出" 若未將DAYS_EMPLOYED做離散化,可能會導致overfitting的產生" 的結論,因工作40年以上的資料感覺上較為極端

不知這個結論是否正確?

謝謝, 辛苦了

回答列表

  • 2019/04/29 上午 11:59
    Jimmy
    贊同數:1
    不贊同數:0
    留言數:2

    Hi Ray!


    That's a good point! 看來你已經掌握成為資料科學家的第一個要素,對資料充滿好奇並勇於假設。假設後我們就必須求證,證明我們的假設是否正確,通常我們都會實際訓練模型,並記錄實驗結果來驗證假設是否正確!