logo
Loading...

測試集的特徵與目標數值範圍是否都需訓練即有看過? - Cupoy

老師您好: 想請教一下 今天我把資料分成訓練 驗證集及測試集 測試集的特徵與目標數值範圍是否都要在訓...

測試集的特徵與目標數值範圍是否都需訓練即有看過?

2021/04/11 下午 03:55
特徵類型
Yaoga
觀看數:32
回答數:3
收藏數:0

老師您好: 想請教一下 今天我把資料分成訓練 驗證集及測試集 測試集的特徵與目標數值範圍是否都要在訓練驗證集對應範圍內 ? 這樣到時候實際預測時才不會有問題? 另外舉一個例子: 如果某一個特徵在訓練及驗證集的數值都分布在0~10 但唯有4~6沒有這些數值的分布 那在測試集如果這一個特徵都是分布在4~6的話 這樣直接預測會有問題嗎? 除了保證測試集有在範圍內之外 是否還要訓練特徵來源都有看過呢? 感謝老師的回覆了~

回答列表

  • 2021/04/12 下午 02:23
    Jaio
    贊同數:0
    不贊同數:0
    留言數:0

    1.測試集的特徵與目標數值範圍是否都要在訓練驗證集對應範圍內 ? 我們用例子來說明 : 我們想預測一張圖是貓還是狗,如果訓練集的圖片都顯得很黑(數值接近225),訓練好模型並用驗證集優化後,測試集突然給一張較白(可能因為曝光)的圖片(數值接近0),也是能預測的! 但當然,與訓練集愈相近的特徵更容易被準確的預測(例如mnist資料集),畢竟訓練出的權重是根據那些特徵值出來的。 所以測試集的特徵與目標數值當然不能在訓練集內 (像是以上例子中,測試集不能放在訓練集出現過的圖片),否則我們就直接用統計模型去預測。 這是否有解釋到你的問題呢? 若有錯誤歡迎大師指正~

  • 2021/04/13 下午 01:03
    Yaoga
    贊同數:0
    不贊同數:0
    留言數:2

    老師說的:測試集的特徵與目標數值當然不能在訓練集內 但如果屬測試集的特徵數值範圍不在訓練集對應的數值範圍內 這樣會不會導致測試預測效果變差呢?

  • 2021/04/15 下午 09:13
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,你好
    通常我們會假設「測試集」與「訓練集」長來自同一個分佈,如果你想要從「測試集」當中學習一個「訓練集」範圍的東西是比較難的。 不管是特徵值還是標籤都是一樣的,如果你的「測試集」跟「訓練集」長的很不一樣就違反「來自同一個分佈」的重要前提。

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤 我的粉絲專頁 ヽ(●´∀`●)ノ