day024: Cabin= None是否需要額外處理
請問day024
1. Cabin為 None 的 Cabin_Count是否需要另外處理等於0或是也改為None?因為相對於其他Cabin,None 的次數出現很多次,我認為這樣也是一種資料偏態。
2. 想請問該如何決定 feaute 的取捨? 是否經過測試會提升準確度 就應該放在train_X裡,而降低準確度的feature 就該拿掉, 我的認知是 我們應該盡可能保留相關性最大的feaure,但這樣又會有過多的人為主觀判斷
謝謝老師
回答列表
-
2019/05/13 下午 10:29張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
1. Cabin為 None 的 Cabin_Count是否需要另外處理等於0或是也改為None?因為相對於其他Cabin,None 的次數出現很多次,我認為這樣也是一種資料偏態。
=> 這是一種 Missing Value 的處理問題,如果情境是「None 的次數出現很多次」也找不到很確定的補值方式,我會建議把它視為一種獨立的欄位,就叫做「None」。
-
2019/05/13 下午 10:32張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
2. 想請問該如何決定 feature 的取捨? 是否經過測試會提升準確度 就應該放在train_X裡,而降低準確度的feature 就該拿掉, 我的認知是 我們應該盡可能保留相關性最大的 feature,但這樣又會有過多的人為主觀判斷
=> 這是屬於 Feature Selection 的範疇,你講的方式都是特徵工程可行的做法,透過比較的方式留下或是透過專業的認識取捨。不過以現在的主流的方法,會傾向「多保留」一點,讓模型本身來處理,或是用深度學習的方式來過濾重要的欄位。
-
2019/05/14 下午 02:38張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
抱歉我還是有疑問, 因為這邊是用出現次數 (Cabin_Count) 當作 feature, 我的疑慮是: 如解答把 [1024 , 6, 5, 5, 4, 4.....] 直接丟進去model train 做完minmax,有Cabin資料的欄位反而對model 的影響比較小 改為[None , 6, 5, 5, 4, 4.....] 是否會比較好呢?
=> 也可以參考這邊的做法:https://stackoverflow.com/questions/7604966/maximum-and-minimum-values-for-ints ,用 `-sys.maxsize-1` 的方式。