Loading...

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹，想了解一下是跑出來分數比較高就選擇那個模型? 是否也需要考量模型的運算時間? 以及是否需要每次跑一堆模型來看分數哪個比較好嗎? - Cupoy

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹，想了解一下是跑出來分數比較高就選擇那...

ml100-2,ml100-2-d22

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹，想了解一下是跑出來分數比較高就選擇那個模型? 是否也需要考量模型的運算時間? 以及是否需要每次跑一堆模型來看分數哪個比較好嗎?

2019/05/27 下午 08:47

機器學習共學討論版

陳裕興

觀看數：10

回答數：2

收藏數：0

ml100-2

ml100-2-d22

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹，想了解一下是跑出來分數比較高就選擇那個模型嗎? 另外，既然有計算運算時間的話，這部分是否也要考量呢? 還有實務每次都要跑一堆模型來看分數哪個比較好嗎? 同理One Hot Encoding搭配其它也是如此嗎?

回答列表

2019/05/28 上午 10:33

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

這個屬於「模型選擇」、「特徵工程」的範疇，沒有一定要怎麼做。

如果對數學或是資料的敏感性很高，或是基於專業背景的輔助資料，你可能看出資料適合哪種模型，可以就直接這樣做。不過我覺得很難。

如果一開始不確定要用哪種做法的話，用暴力的方式把各種可能嘗試，在選擇比較高的結果來進行優化或驗證。也是很多人的進行方式。
2019/05/29 上午 10:11

Jimmy

贊同數：2

不贊同數：0

留言數：0

Hi 裕興！

這就是機器學習中辛苦的調參過程囉！但是在調參時，必須經過 cross-validation 來完整評估每個模型的結果，才能公平的評估，計算時間與準確率通常都會是反比的關係，這個就要依據專案目標來評估囉。

實務上資料科學家都會有一套自己的工具包，或是根據經驗知道哪種模型比較容易有好的結果 (通常樹狀模型都會優先使用)。各種 encoding 的方法都是可以嘗試的，只要最終對準確率有待來提升，就是好的 encoding！