k-fold cross-validation的cv參數定義
2019/05/05 下午 02:47
機器學習共學討論版
Benjamin Shao
觀看數:37
回答數:2
收藏數:0
ml100-2
ml100-2-d18
ml100-2-d19
我想請問一下有cross_val_score裡面cv這個參數的說明嗎?為什麼validation的輸出會有很多部分壓?不是從training data跟loss function就可以計算出一組得分了嗎?
為什麼一開始cross_val_score會給那麼多組得分壓?
這部分有參考資料嗎?
回答列表
-
2019/05/05 下午 03:17Jimmy贊同數:1不贊同數:0留言數:4
Hi Benjamin!
還記得 k-fold cross-validation 的定義嗎? 假設 k=3,我們會把資料切成三個等分 (fold),然後每一等分 (fold) 輪流當一次 test data,k=3 代表我們會訓練三次模型, 所以可以得到三次的 test 結果。cv 這個參數指的就是這個 k 囉! 下圖你可以很清楚的看到,這是個 k=5 的 cross-validation,有甚麼問題歡迎繼續提問囉!
-
2019/05/05 下午 04:03張維元 (WeiYuan)贊同數:2不贊同數:0留言數:1
補充一下這個問題:「為什麼一開始 cross_val_score 會給那麼多組得分壓? 」
=> cross validation 的目的是透過重複不同的訓練來避免模型依賴某組資料造成 overfitting 的現象,提升模型的泛化能力。對於一個好的模型除了希望模型準之外,也會希望模型有適應不同資料的遷移性。