logo
Loading...

關於交叉驗證的問題 - Cupoy

嗨,想問有一組資料集,target 0 , 1 的數目相差甚大( target0 僅佔 8%左右)。...

ml100-2,ml100-2-d06

關於交叉驗證的問題

2019/10/08 06:24 AM
機器學習新手論壇
doris
觀看數:0
回答數:3
收藏數:0
ml100-2
ml100-2-d06

嗨,

想問有一組資料集,target 0 , 1 的數目相差甚大( target0 僅佔 8%左右)。我在交叉驗證時,傾向的做法是:先將原始資料集經過初步的整體分成 targe 0:target = 5:5, 然後再進行10-folder validation。但我有個疑問想要釐清:


1. k-folder validation的優點是可以增加訓練資料,且每筆資料都有經過訓練,降低偏誤(抽樣抽到某一性質特別多的樣本)的產生。然而我一開始把targe 0:target1分成5:5,就已經將部分樣本,經過隨機篩選機制篩選掉的,這樣的處理,並沒有滿足減少偏誤的目標(稀釋了k-folder的優勢)。有沒有其他更好的處理方式?