資料分析推論問題?
2019/04/27 下午 10:29
機器學習共學討論版
Ray Xie
觀看數:3
回答數:1
收藏數:0
ml100-2
離散化
ml100-2-d13
在第13天的作業中,目標是觀察離散化的特徵是否對目標值的預測有幫助
我在將DAYS_EMPLOYED離散化後畫出了與TARGET的長條圖
發現隨著DAYS_EMPLOYED的時間增長,還款能力似乎也跟著上升
但我將DAYS EMPLOYED 有 40年以上的資料擷取出來後,去計算了還款能力不好案例的數量
發現只有一個,感覺上這代表在dataset裡面,擁有40年以上工作的人還款能力都是好的
所以得出" 若未將DAYS_EMPLOYED做離散化,可能會導致overfitting的產生" 的結論,因工作40年以上的資料感覺上較為極端
不知這個結論是否正確?
謝謝, 辛苦了
回答列表
-
2019/04/29 上午 11:59Jimmy贊同數:1不贊同數:0留言數:2
Hi Ray!
That's a good point! 看來你已經掌握成為資料科學家的第一個要素,對資料充滿好奇並勇於假設。假設後我們就必須求證,證明我們的假設是否正確,通常我們都會實際訓練模型,並記錄實驗結果來驗證假設是否正確!