建立模型該使用類別還是連續值特徵
2020/04/21 下午 08:01
機器學習共學討論版
劉致良
觀看數:9
回答數:3
收藏數:0
老師 您好 想請教一下 關於模型特徵類別與連續值 會傾向哪一種丟入模型裡做預測? 假設是以年齡特徵來說, 會把年齡分組轉成類別還是不做轉換保留原始連續值丟入模型做預測?
會不會把特徵從連續轉成類別後 資料裡面重要的訊息就會消失而影響到模型的預測能力?
回答列表
-
2020/04/23 下午 03:34William贊同數:1不贊同數:0留言數:1
您可能可以兩者都嘗試,若資料量足夠,連續資料的確能保有更多的隱含資訊,但資料量若不大,簡單的分類有機會能降低模型訓練的難度忽略掉過多的雜訊,進而提升預測能力,同時模型訓練是否成功,也得考慮到您所要解決的問題難易。一些淺見供您參考。
-
2020/04/24 下午 07:26Jeffrey贊同數:0不贊同數:0留言數:0
會先建議回歸到想要解決的問題為何? 是否需要先針對年齡數據先做處理.
或是使用 GBM 類別去預測.
會不會把特徵從連續轉成類別後 資料裡面重要的訊息就會消失而影響到模型的預測能力?
-->通常不會
-
2020/04/25 下午 09:57張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,
假設是以年齡特徵來說, 會把年齡分組轉成類別還是不做轉換保留原始連續值丟入模型做預測?
=> 首先你要看模型能不能接受,再來要看資料本身的意義。
會不會把特徵從連續轉成類別後 資料裡面重要的訊息就會消失而影響到模型的預測能力?
=> 這要看資料本身的特性,沒有怎樣一定比較好。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃