建立模型時如何知道新數據會跟真實但未知的差多少?

2020/04/22 下午 09:44

機器學習共學討論版

江柏勳

觀看數：26

回答數：5

收藏數：1

恩.....不是很能理解那個Kaggle資料要我們預測甚麼，感覺像是分類。(可以給些提示嗎)

然後有個問題算很基本的，就是我們把資料會分訓練及跟測試集，然後看模型預測跟實際差多少

那有個問題來了，譬如這個模型建好了，那我們有一組新數據要來預測，我們怎麼知道新數據

會跟真實但未知的差多少?(還是這仰賴模型本身的準確值，如果準確值很高代標預測值是可相信的)

回答列表

2020/04/22 下午 09:55

江柏勳

贊同數：0

不贊同數：0

留言數：4

然後另一個問題是，看起來test比train大很多，那目的是為了多次檢驗模型的正確率嗎?

這麼多的test把一部分拿去train有不好嗎?
2020/04/23 上午 10:08

Shih Cheng Chen

贊同數：1

不贊同數：0

留言數：1

我也是學員

這頁有寫他是哪一類問題

https://www.kaggle.com/c/data-science-london-scikit-learn/overview/evaluation

至於資料部分，我是拿訓練資料(train.csv)和答案(trainlabels.csv)各切成兩份資料，訓練模型之後確定預測率OK

在拿全部的訓練資料和答案來訓練，拿test做預測然後輸出CSV上傳kaggle
2020/04/24 下午 07:18

Jeffrey

贊同數：0

不贊同數：0

留言數：2

說明一下哦, 數據的分析是否做分類或試用分群, 取決於想解決的問題;

新數據出來的預測值可以跟當成test 或是 validation 的預測值作對比,

同一類的數據應該是接近的, 當然也會碰到新數據出來的預測值很差.

那這時候表示做loss 會有誤差, 所以回頭必須去檢視模型.
2020/04/25 下午 09:51

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

嗨，

「我們怎麼知道新數據會跟真實但未知的差多少」=> 這邊會假設新數據跟真實來自相同的分佈，因此你的模型是從原始資料學習真實世界的樣子，而不是學習原始資料的樣子。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/04/26 下午 10:52

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

嗨，

「好，謝謝。但話說順便請問，在這裡預測值是要跟標籤比較嗎?(如果是會有順序問題嗎?)」

=> 對的，預測值就是要拿來跟標籤（真實資料）做比較的啊！順序問題是必須要自己對齊的！

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃