【QA】為什麼做模型時需要將同一個訓練集(Training Data)在細分成訓練集與驗證集(Validation Data)?
------ 通常我們會將驗證集歸於訓練集內,那驗證集、訓練集、甚至是測試集,又個別代表什麼意思呢? 下面我想用圖表來跟大家討論一下。
回答列表
-
2021/08/11 下午 09:19Chili贊同數:1不贊同數:0留言數:0
對於監督式學習的模型來說,具備label 的數據是相當珍貴且重要的,但我們在訓練模型時,卻不能將所有資料都丟入訓練,必須將資料集分為訓練集(Training Data)、驗證集(Validation Data)、測試集(Testing Data),為此才能依據數據為訓練出來的模型打分數,取得一接近最好的模型。 - 三種資料集比較:  ----- 通常來說我們會將數據70%分給訓練模型、10%於驗證模型,剩下的20%分配給測試模型。但這切分比例沒有明確的區分規定,可根據資料特性做調整。  --- - 參考答案來源: 李鴻毅:https://datawhalechina.github.io/leeml-notes/#/chapter5/chapter5?id=模型选择
