標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那個模型? 是否也需要考量模型的運算時間? 以及是否需要每次跑一堆模型來看分數哪個比較好嗎?
2019/05/27 下午 08:47
機器學習共學討論版
陳裕興
觀看數:10
回答數:2
收藏數:0
ml100-2
ml100-2-d22
標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那個模型嗎? 另外,既然有計算運算時間的話,這部分是否也要考量呢? 還有實務每次都要跑一堆模型來看分數哪個比較好嗎? 同理One Hot Encoding搭配其它也是如此嗎?
回答列表
-
2019/05/28 上午 10:33張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
這個屬於「模型選擇」、「特徵工程」的範疇,沒有一定要怎麼做。
如果對數學或是資料的敏感性很高,或是基於專業背景的輔助資料,你可能看出資料適合哪種模型,可以就直接這樣做。不過我覺得很難。
如果一開始不確定要用哪種做法的話,用暴力的方式把各種可能嘗試,在選擇比較高的結果來進行優化或驗證。也是很多人的進行方式。
-
2019/05/29 上午 10:11Jimmy贊同數:2不贊同數:0留言數:0
Hi 裕興!
這就是機器學習中辛苦的調參過程囉!但是在調參時,必須經過 cross-validation 來完整評估每個模型的結果,才能公平的評估,計算時間與準確率通常都會是反比的關係,這個就要依據專案目標來評估囉。
實務上資料科學家都會有一套自己的工具包,或是根據經驗知道哪種模型比較容易有好的結果 (通常樹狀模型都會優先使用)。 各種 encoding 的方法都是可以嘗試的,只要最終對準確率有待來提升,就是好的 encoding!