建立模型時如何知道新數據會跟真實但未知的差多少?
恩.....不是很能理解那個Kaggle資料要我們預測甚麼,感覺像是分類。(可以給些提示嗎)
然後有個問題算很基本的,就是我們把資料會分訓練及跟測試集,然後看模型預測跟實際差多少
那有個問題來了,譬如這個模型建好了,那我們有一組新數據要來預測,我們怎麼知道新數據
會跟真實但未知的差多少?(還是這仰賴模型本身的準確值,如果準確值很高代標預測值是可相信的)
回答列表
-
2020/04/22 下午 09:55江柏勳贊同數:0不贊同數:0留言數:4
然後另一個問題是,看起來test比train大很多,那目的是為了多次檢驗模型的正確率嗎?
這麼多的test把一部分拿去train有不好嗎?
-
2020/04/23 上午 10:08Shih Cheng Chen贊同數:1不贊同數:0留言數:1
我也是學員
這頁有寫他是哪一類問題
https://www.kaggle.com/c/data-science-london-scikit-learn/overview/evaluation
至於資料部分,我是拿訓練資料(train.csv)和答案(trainlabels.csv)各切成兩份資料,訓練模型之後確定預測率OK
在拿全部的訓練資料和答案來訓練,拿test做預測然後輸出CSV上傳kaggle
-
2020/04/24 下午 07:18Jeffrey贊同數:0不贊同數:0留言數:2
說明一下哦, 數據的分析是否做分類或試用分群, 取決於想解決的問題;
新數據出來的預測值可以跟當成test 或是 validation 的預測值作對比,
同一類的數據應該是接近的, 當然也會碰到新數據出來的預測值很差.
那這時候表示做loss 會有誤差, 所以回頭必須去檢視模型.
-
2020/04/25 下午 09:51張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
嗨,
「我們怎麼知道新數據會跟真實但未知的差多少」=> 這邊會假設新數據跟真實來自相同的分佈,因此你的模型是從原始資料學習真實世界的樣子,而不是學習原始資料的樣子。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/04/26 下午 10:52張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
嗨,
「好,謝謝。但話說順便請問,在這裡預測值是要跟標籤比較嗎?(如果是會有順序問題嗎?)」
=> 對的,預測值就是要拿來跟標籤(真實資料)做比較的啊!順序問題是必須要自己對齊的!
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃