logo
Loading...

建立模型時如何知道新數據會跟真實但未知的差多少? - Cupoy

恩.....不是很能理解那個Kaggle資料要我們預測甚麼,感覺像是分類。(可以給些提示嗎)然後有個...

建立模型時如何知道新數據會跟真實但未知的差多少?

2020/04/22 下午 09:44
機器學習共學討論版
江柏勳
觀看數:26
回答數:5
收藏數:1

恩.....不是很能理解那個Kaggle資料要我們預測甚麼,感覺像是分類。(可以給些提示嗎)

然後有個問題算很基本的,就是我們把資料會分訓練及跟測試集,然後看模型預測跟實際差多少

那有個問題來了,譬如這個模型建好了,那我們有一組新數據要來預測,我們怎麼知道新數據

會跟真實但未知的差多少?(還是這仰賴模型本身的準確值,如果準確值很高代標預測值是可相信的)

回答列表

  • 2020/04/22 下午 09:55
    江柏勳
    贊同數:0
    不贊同數:0
    留言數:4

    然後另一個問題是,看起來test比train大很多,那目的是為了多次檢驗模型的正確率嗎?

    這麼多的test把一部分拿去train有不好嗎?

  • 2020/04/23 上午 10:08
    Shih Cheng Chen
    贊同數:1
    不贊同數:0
    留言數:1

    我也是學員

    這頁有寫他是哪一類問題

    https://www.kaggle.com/c/data-science-london-scikit-learn/overview/evaluation


    至於資料部分,我是拿訓練資料(train.csv)和答案(trainlabels.csv)各切成兩份資料,訓練模型之後確定預測率OK

    在拿全部的訓練資料和答案來訓練,拿test做預測然後輸出CSV上傳kaggle

  • 2020/04/24 下午 07:18
    Jeffrey
    贊同數:0
    不贊同數:0
    留言數:2

    說明一下哦, 數據的分析是否做分類或試用分群, 取決於想解決的問題;

    新數據出來的預測值可以跟當成test 或是 validation 的預測值作對比, 

    同一類的數據應該是接近的, 當然也會碰到新數據出來的預測值很差.

    那這時候表示做loss 會有誤差, 所以回頭必須去檢視模型.

  • 2020/04/25 下午 09:51
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,


    我們怎麼知道新數據會跟真實但未知的差多少」=> 這邊會假設新數據跟真實來自相同的分佈,因此你的模型是從原始資料學習真實世界的樣子,而不是學習原始資料的樣子。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/04/26 下午 10:52
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,


    好,謝謝。但話說順便請問,在這裡預測值是要跟標籤比較嗎?(如果是會有順序問題嗎?)

    => 對的,預測值就是要拿來跟標籤(真實資料)做比較的啊!順序問題是必須要自己對齊的!



    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃