什麼原因造成實際預測的準確率低於驗證準確率 ? 是否有方法讓驗證準確率趨近於實際預測準確率?

2019/04/25 上午 09:12

機器學習共學討論版

高啟益

觀看數：259

回答數：3

收藏數：1

ml100

kaggle

k -ford validated

ml100-d101

我在訓練模型時的訓練準確率與驗證準確率都可以達到 95% 以上。但用測試資料集實際跑模型預測的結果，上傳到 Kaggle 平台評分，準確率卻會降低到 91%。請問老師，模型的評估指標看起來並沒有過擬合或欠擬合的狀況，驗證準確率也相當於是讓模型去看沒學過的資料的結果，原則上驗證準確率應該會跟實際預測的準確度很相近才對，請問老師:

1.有甚麼原因會讓實際預測的準確率低於驗證準確率 ?

2. 或是有其他指標或是方法可以讓驗證準確率趨近實際預測的準確率呢?

謝謝 !

回答列表

2019/04/25 上午 11:05

Jeffrey

贊同數：0

不贊同數：1

留言數：2

Hello, 要避免這種狀況，可以使用K -ford validated, 或是嘗試把training 跟 test group ，弄出新的training set.
2019/04/25 上午 11:05

Jimmy

贊同數：2

不贊同數：0

留言數：0

Hi 啟益！

實務上應用時，其實我們不會太過在意訓練集與測試集的些許誤差 (除非是明顯 Over-fitting)，原因是測試集的樣本數通常會比訓練集來得更少，我們希望測試集的分佈跟真實分佈能夠一致，但如果測試集裡面存在些微的 noise (標注錯誤或是影像品質不佳)，這時如果模型在測試集上表現很好反而才要擔心！在 Kaggle 的比賽中這也是非常常見的問題，Public leader board 第一名的隊伍往往在 Private board 不是第一名。

有關於你的問題：

1. 就是解決過擬合的做法，增加模型複雜度、增加資料擴增等等

2. 指標是以不同方式在衡量準確率。因此不同指標是不能解決你現在的問題

若有任何問題，歡迎隨時提出囉。謝謝
2019/04/25 下午 00:13

高啟益

贊同數：0

不贊同數：0

留言數：4

我遇到的狀況是，不論是訓練準確率或是驗證準確率，都跟上傳 Kaggle之後的評分有大落差。Kaggle 的評分都低於訓練或是驗證準確率 5% 以上。期中考及期末考都遇到一樣的情況。

所以，我就不知道是我的模型過擬合了，還是 Kaggle 的評分機制有問題…？