測試集的特徵與目標數值範圍是否都需訓練即有看過?
老師您好: 想請教一下 今天我把資料分成訓練 驗證集及測試集 測試集的特徵與目標數值範圍是否都要在訓練驗證集對應範圍內 ? 這樣到時候實際預測時才不會有問題? 另外舉一個例子: 如果某一個特徵在訓練及驗證集的數值都分布在0~10 但唯有4~6沒有這些數值的分布 那在測試集如果這一個特徵都是分布在4~6的話 這樣直接預測會有問題嗎? 除了保證測試集有在範圍內之外 是否還要訓練特徵來源都有看過呢? 感謝老師的回覆了~
回答列表
-
2021/04/12 下午 02:23Jaio贊同數:0不贊同數:0留言數:0
1.測試集的特徵與目標數值範圍是否都要在訓練驗證集對應範圍內 ? 我們用例子來說明 : 我們想預測一張圖是貓還是狗,如果訓練集的圖片都顯得很黑(數值接近225),訓練好模型並用驗證集優化後,測試集突然給一張較白(可能因為曝光)的圖片(數值接近0),也是能預測的! 但當然,與訓練集愈相近的特徵更容易被準確的預測(例如mnist資料集),畢竟訓練出的權重是根據那些特徵值出來的。 所以測試集的特徵與目標數值當然不能在訓練集內 (像是以上例子中,測試集不能放在訓練集出現過的圖片),否則我們就直接用統計模型去預測。 這是否有解釋到你的問題呢? 若有錯誤歡迎大師指正~
-
2021/04/13 下午 01:03Yaoga贊同數:0不贊同數:0留言數:2
老師說的:測試集的特徵與目標數值當然不能在訓練集內 但如果屬測試集的特徵數值範圍不在訓練集對應的數值範圍內 這樣會不會導致測試預測效果變差呢?
-
2021/04/15 下午 09:13張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
嗨,你好
通常我們會假設「測試集」與「訓練集」長來自同一個分佈,如果你想要從「測試集」當中學習一個「訓練集」範圍的東西是比較難的。 不管是特徵值還是標籤都是一樣的,如果你的「測試集」跟「訓練集」長的很不一樣就違反「來自同一個分佈」的重要前提。
嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤 我的粉絲專頁 ヽ(●´∀`●)ノ