[計數編碼與雜湊編碼後,原本欄位的問題]
2020/06/03 上午 11:39
機器學習共學討論版
James Chang
觀看數:15
回答數:1
收藏數:0
ml100
ml100-d26
教練們好:
根據提供的解答,在count encoding or hash coding ''Cabin'' 欄位後,我們在計算模型時並沒有將原本的Cabin欄位去掉。請問這是為什麼呢?
如果Cabin_Count 和 Cabin_Hash 是基於 Cabin欄位得出的衍伸變量,那Cabin欄位本身還有需要存在的必要嗎?雖然得出的分數可能是case by case,但實務上再經過編碼後,是否應該將原本的Cabin欄位去除?
感謝您的回答。
回答列表
-
2020/06/05 上午 00:30張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
嗨,James
這是一個好問題,在大部分的模型下,重複的特徵(欄位)是會造成重疊的影響,是需要刪掉的。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃