logo
Loading...

模型訓練一段過程出現資料卡住無法再訓練 - Cupoy

我在跑D70範例的訓練資料時,訓練資料卡住,關掉kernal70範例的訓練資料時,訓練資料卡住,關掉...

ml100-3,ml100-3-d70

模型訓練一段過程出現資料卡住無法再訓練

2019/11/20 下午 05:10
機器學習共學討論版
林睿晢
觀看數:746
回答數:4
收藏數:0
ml100-3
ml100-3-d70

我在跑D70範例的訓練資料時,訓練資料卡住,關掉kernal70範例的訓練資料時,訓練資料卡住,關掉kernal重跑之後,也會卡住,想問各位專家,我要怎麼處理

回答列表

  • 2019/11/20 下午 11:29
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    卡住是說維持這個畫面不動嗎?你可以觀察一下電腦的 CPU  跟 Memory  的使用狀況嗎?

  • 2019/11/20 下午 11:54
    Jeffrey
    贊同數:0
    不贊同數:0
    留言數:1

    Hello, 

    前面的cell 在執行時, 有無報錯? 或是 warrning的訊息? 通常這樣的情形, 會導致後面 cell 執行出錯 

  • 2019/11/22 下午 05:19
    計弘達
    贊同數:0
    不贊同數:0
    留言數:2

    我也遇到相同問題,run了超過 30 遍,狀況一樣,只是每次 hang 住的run time 位置不一樣,有時(大部分)在第一個 Epoch,有時(一次)在第9個 epoch。過程中除了重啟 Jupyter Notebook、重啟電腦之外,也重新依序安裝 CUDA、cuDNN、Tensorflow、Keras,依然無法解除。


    CPU是 Intel Core i5-7200U @ 2.50GHz 2.71GHz

    RAM 是 12GB


    當 Jupyter Notebook hang 住時,切換使用其他軟體並沒有無法操作或卡卡的現象。


    從資源監視器上看到CPU使用率從約 5% 衝到 60% ~ 70%,其中Python 佔49%,restart Jupyter Notebook kernel 後,CPU使用率會掉下來。之前跑作業時,CPU使用率也曾達到 100% 也都沒事。


    我曾試著丟到 Colab 去執行,沒有任何問題,只是 Colab 目前 Python 是 v3.6、Tensorflow 是 v1.x,會有一堆 warnning messages。


    請問這是遇到什麼狀況呢?要如何解?

  • 2019/11/25 下午 04:08
    計弘達
    贊同數:0
    不贊同數:0
    留言數:0

    有一個有趣的現象,今天一開始花了一些時間跑 Day 071、Day 072的程式,下午回過頭來再跑一次 Day 070 的程式,明明前天晚上、昨天早上都可以正常執行的 Day 070 程式卻突然出現錯誤訊息,不是 hang 住,這是我前幾天一直搞混的地方。


    關掉 Day071和Day072的程式分頁並沒有解決 Day 070 程式錯誤訊息的狀況,最後一招是退出 Jupyter Notebook,再重新進入 Jupyter Notebook,開啟 Day 070 程式,執行 Day 070 程式,這次就沒有問題了。


    出問題時的 log 畫面擷取如下,請宇春兄幫忙看一下。