logo
Loading...

資料分割時機問題 - Cupoy

您好,想請問一下,關於資料分割train_test_split的時機應該是在做特徵工程前(如: 填補...

資料分割時機問題

2020/05/01 下午 04:52
機器學習共學討論版
Jeff Huang
觀看數:7
回答數:2
收藏數:0

您好,想請問一下,

關於資料分割train_test_split的時機應該是在做特徵工程前(如: 填補遺漏值、標準化/正規化)比較好還是特徵工程之後才比較好? 然後為什麼?

謝謝!!

回答列表

  • 2020/05/01 下午 08:34
    Jeffrey
    贊同數:0
    不贊同數:0
    留言數:2

    建議在做特徵工程, 尤其是在初學者, 因為train/test 的準確率與損失值的比對, 來檢查模型比較簡易

  • 2020/05/05 上午 01:50
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    嗨,Jeff


    train_test_split 建議在 特徵工程前 處理哦,因為嚴格來說只能利用 train 的資訊而已。舉例來說,如果要使用平均數來填補遺漏值的話,這邊的平均只能用 train 的來計算,然後填補到 train & test 的資料上。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃