logo
Loading...

何時切分 test set?是在資料處理前還是處理後? - Cupoy

以前有提到 test set 應該要切割開來,維持 blind & untouched 。但如果在資...

何時切分 test set?是在資料處理前還是處理後?

2020/10/25 下午 03:31
訓練/測試集切分的概念
Will
觀看數:19
回答數:2
收藏數:1

以前有提到 test set 應該要切割開來,維持 blind & untouched 。但如果在資料處理時,把一些outliers 除掉,或是進行 transformation 和添加新features,是等這些步驟做完才切分 train / validation/  test嗎?還是說要在一開始 import dataset 的時候,就先進行切分?謝謝

回答列表

  • 2020/10/25 下午 04:41
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    嗨,維萱


    這是一個好問題也是實務上很容易遇到的問題之一。


    根據嚴謹的理論來說,必須在一開始就將資料切開來,是完全不能使用到除了 training data 以外的資料。因此要把對 training 的操作記下來,之後再對 validation & test 進行後才能瑾入模型。但實際上,全部資料一併做前處理是比較方便的。


    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發#軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,可以追蹤我的 FacebookLine 群組社群 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ

  • 2020/10/26 上午 00:14
    Jeffrey
    贊同數:0
    不贊同數:0
    留言數:0

    建議是:

    1. 把一些outliers 除掉, 就可以切出 test dataset.

    2. 進行 transformation 和添加新features,是等這些步驟做完才切分 train / validation