logo
Loading...

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那個模型? 是否也需要考量模型的運算時間? 以及是否需要每次跑一堆模型來看分數哪個比較好嗎? - Cupoy

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那...

ml100-2,ml100-2-d22

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那個模型? 是否也需要考量模型的運算時間? 以及是否需要每次跑一堆模型來看分數哪個比較好嗎?

2019/05/27 下午 08:47
機器學習共學討論版
陳裕興
觀看數:10
回答數:2
收藏數:0
ml100-2
ml100-2-d22

標籤編碼+線性迴歸、標籤編碼+羅吉斯迴歸和標籤編碼+梯度提升樹,想了解一下是跑出來分數比較高就選擇那個模型嗎? 另外,既然有計算運算時間的話,這部分是否也要考量呢? 還有實務每次都要跑一堆模型來看分數哪個比較好嗎? 同理One Hot Encoding搭配其它也是如此嗎?

回答列表

  • 2019/05/28 上午 10:33
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    這個屬於「模型選擇」、「特徵工程」的範疇,沒有一定要怎麼做。


    如果對數學或是資料的敏感性很高,或是基於專業背景的輔助資料,你可能看出資料適合哪種模型,可以就直接這樣做。不過我覺得很難。


    如果一開始不確定要用哪種做法的話,用暴力的方式把各種可能嘗試,在選擇比較高的結果來進行優化或驗證。也是很多人的進行方式。

  • 2019/05/29 上午 10:11
    Jimmy
    贊同數:2
    不贊同數:0
    留言數:0

    Hi 裕興!


    這就是機器學習中辛苦的調參過程囉!但是在調參時,必須經過 cross-validation 來完整評估每個模型的結果,才能公平的評估,計算時間與準確率通常都會是反比的關係,這個就要依據專案目標來評估囉。


    實務上資料科學家都會有一套自己的工具包,或是根據經驗知道哪種模型比較容易有好的結果 (通常樹狀模型都會優先使用)。 各種 encoding 的方法都是可以嘗試的,只要最終對準確率有待來提升,就是好的 encoding!