模型訓練一段過程出現資料卡住無法再訓練
我在跑D70範例的訓練資料時,訓練資料卡住,關掉kernal70範例的訓練資料時,訓練資料卡住,關掉kernal重跑之後,也會卡住,想問各位專家,我要怎麼處理
回答列表
-
2019/11/20 下午 11:29張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
卡住是說維持這個畫面不動嗎?你可以觀察一下電腦的 CPU 跟 Memory 的使用狀況嗎?
-
2019/11/20 下午 11:54Jeffrey贊同數:0不贊同數:0留言數:1
Hello,
前面的cell 在執行時, 有無報錯? 或是 warrning的訊息? 通常這樣的情形, 會導致後面 cell 執行出錯
-
2019/11/22 下午 05:19計弘達贊同數:0不贊同數:0留言數:2
我也遇到相同問題,run了超過 30 遍,狀況一樣,只是每次 hang 住的run time 位置不一樣,有時(大部分)在第一個 Epoch,有時(一次)在第9個 epoch。過程中除了重啟 Jupyter Notebook、重啟電腦之外,也重新依序安裝 CUDA、cuDNN、Tensorflow、Keras,依然無法解除。
CPU是 Intel Core i5-7200U @ 2.50GHz 2.71GHz
RAM 是 12GB
當 Jupyter Notebook hang 住時,切換使用其他軟體並沒有無法操作或卡卡的現象。
從資源監視器上看到CPU使用率從約 5% 衝到 60% ~ 70%,其中Python 佔49%,restart Jupyter Notebook kernel 後,CPU使用率會掉下來。之前跑作業時,CPU使用率也曾達到 100% 也都沒事。
我曾試著丟到 Colab 去執行,沒有任何問題,只是 Colab 目前 Python 是 v3.6、Tensorflow 是 v1.x,會有一堆 warnning messages。
請問這是遇到什麼狀況呢?要如何解?
-
2019/11/25 下午 04:08計弘達贊同數:0不贊同數:0留言數:0
有一個有趣的現象,今天一開始花了一些時間跑 Day 071、Day 072的程式,下午回過頭來再跑一次 Day 070 的程式,明明前天晚上、昨天早上都可以正常執行的 Day 070 程式卻突然出現錯誤訊息,不是 hang 住,這是我前幾天一直搞混的地方。
關掉 Day071和Day072的程式分頁並沒有解決 Day 070 程式錯誤訊息的狀況,最後一招是退出 Jupyter Notebook,再重新進入 Jupyter Notebook,開啟 Day 070 程式,執行 Day 070 程式,這次就沒有問題了。
出問題時的 log 畫面擷取如下,請宇春兄幫忙看一下。