logo
Loading...

day024: Cabin= None是否需要額外處理 - Cupoy

請問day024 1. Cabin為 None 的 Cabin_Count是否需要另外處理等於0或是...

ml100-2,ml100-2-d24

day024: Cabin= None是否需要額外處理

2019/05/13 下午 04:47
機器學習共學討論版
王鵬綱
觀看數:10
回答數:3
收藏數:0
ml100-2
ml100-2-d24

請問day024 


1. Cabin為 None 的 Cabin_Count是否需要另外處理等於0或是也改為None?因為相對於其他Cabin,None 的次數出現很多次,我認為這樣也是一種資料偏態。


2.  想請問該如何決定 feaute 的取捨? 是否經過測試會提升準確度 就應該放在train_X裡,而降低準確度的feature 就該拿掉, 我的認知是 我們應該盡可能保留相關性最大的feaure,但這樣又會有過多的人為主觀判斷


謝謝老師


回答列表

  • 2019/05/13 下午 10:29
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    1. Cabin為 None 的 Cabin_Count是否需要另外處理等於0或是也改為None?因為相對於其他Cabin,None 的次數出現很多次,我認為這樣也是一種資料偏態。


    => 這是一種 Missing Value 的處理問題,如果情境是「None 的次數出現很多次」也找不到很確定的補值方式,我會建議把它視為一種獨立的欄位,就叫做「None」。

  • 2019/05/13 下午 10:32
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    2.  想請問該如何決定 feature 的取捨? 是否經過測試會提升準確度 就應該放在train_X裡,而降低準確度的feature 就該拿掉, 我的認知是 我們應該盡可能保留相關性最大的 feature,但這樣又會有過多的人為主觀判斷


    => 這是屬於 Feature Selection 的範疇,你講的方式都是特徵工程可行的做法,透過比較的方式留下或是透過專業的認識取捨。不過以現在的主流的方法,會傾向「多保留」一點,讓模型本身來處理,或是用深度學習的方式來過濾重要的欄位。

  • 2019/05/14 下午 02:38
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    抱歉我還是有疑問, 因為這邊是用出現次數 (Cabin_Count) 當作 feature,  我的疑慮是: 如解答把 [1024 , 6, 5, 5, 4, 4.....] 直接丟進去model train 做完minmax,有Cabin資料的欄位反而對model 的影響比較小  改為[None , 6, 5, 5, 4, 4.....] 是否會比較好呢?


    => 也可以參考這邊的做法:https://stackoverflow.com/questions/7604966/maximum-and-minimum-values-for-ints ,用 `-sys.maxsize-1` 的方式。