請問交叉驗證cv值用什麼準則去定義
2019/10/02 下午 09:13
機器學習共學討論版
William Mok
觀看數:34
回答數:3
收藏數:0
ml100-3
ml100-3-d12
cross_val_score(estimator, train_X, train_Y, cv=5).mean()
請問 cv 值用什麼準則去定, 我發覺cv 增加是時, score 亦會改善
謝謝
William
回答列表
-
2019/10/02 下午 11:35張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
你這邊的指的「cv 值」是什麼?
-
2019/10/03 下午 01:36陳明佑 (Ming You Chen)贊同數:0不贊同數:0留言數:0
cv 值是 K-fold cross validation 中, 那個 "K" 的大小
理論上, 資料越多, K 可以越小, 反之資料越少時, K要越大
因此資料極少時, 存在 leave one out 的作法 : 每一筆資料一個 fold
另一方面, 同樣的資料下, K 越大, 通常也意味著估計更加"準確"
但代價就是計算時間也隨 K 成比例增加
但是應該是不影響模型準確度, 只影響你看到的精準度而已
-
2019/10/07 上午 00:41張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
「如cv=5, 請問什麼標準在設定 這個 cv 值, 是否嘗試不同的 cv 值來測試,找過最好的?」
=> 是的,5 是一個慣例,不過實務上是必須要多嘗試多觀察的!