logo
Loading...

從論壇中看到的疑問 - Cupoy

您好,在論壇中看到這個提問:https://www.cupoy.com/qa/kwassist/ai...

ml100-2,training set,test set,ml100-2-d17

從論壇中看到的疑問

2019/05/03 01:46 AM
機器學習新手論壇
JS
觀看數:0
回答數:3
收藏數:0
ml100-2
training set
test set
ml100-2-d17

您好,在論壇中看到這個提問:


https://www.cupoy.com/qa/kwassist/ai_tw/0000016A7400D52E0000012A6375706F795F72656C656173655155455354


其中老師的回答有「正規的機器學習理論上是不允許你使用任何 test data 的資訊,test data 只能用來做最後的測試,因為實務上在應用時,測試資料通常數量都很小,這時任何統計量都有可能帶來偏誤。」這一段.


對於這個回答有下列提問:


1. 目前我對上述理解是須針對這兩個資料集各做一次一樣的資料預處理流程,

但是範例檔的內容正是先把training set 和 test set 合併才做特徵工程,是否跟上述回答有衝突呢?


2. 那麼在一般的情況(例如透過自己網路爬蟲搜集到的資料,不像kaggle那樣一開始就幫你分好training set, test set),是否也需在一開始就先分好訓練資料和測試資料,再各自做預處理;

還是就先一起做預處理,再分為訓練/測試資料,最後只用訓練資料來訓練模型呢?


3. 若「須針對這兩個資料集各做一次一樣的資料預處理流程」這個想法是對的,

那麼又提到「因為實務上在應用時,測試資料通常數量都很小,這時任何統計量都有可能帶來偏誤」.

這樣對於測試資料的預處理難道不會因為資料量相對較少而造成統計量偏誤嗎?