爬取PPT文章出現了錯誤:twisted.internet.error.ReactorNotRestartable
可以成功爬第一個版的全部文章,第二個版會出現錯誤如下:
第一個版爬完有 2020-03-28 20:40:15 [scrapy.core.engine] INFO: Spider closed (finished),也有成功存檔,但到了第二的板後好像twisted.internet.就卡住。請問是因為什麼問題?
回答列表
-
2020/03/29 上午 08:40黃琳芹贊同數:1不贊同數:0留言數:1
Hello,
我也遇到同樣的問題,在我上網查過之後,發現「process.start()」只需在for loop 跑完後執行一次即可順利運作了喔。
以下是我查到解法的網址,供您參考:
https://stackoverflow.com/questions/39946632/reactornotrestartable-error-in-while-loop-with-scrapy
-
2020/03/29 下午 08:26張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
嗨,Karen
琳芹的說明是正確的,根據官方的用法,一個爬蟲中只能有一個 process.start() 。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/04/10 上午 00:15張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
「請問:按照上面琳芹提供的解答,可以順利執行、下載。但再次按下執行鍵,就會出現錯誤。請問這是甚麼問題?? raise error.ReactorNotRestartable() 」
=> 你要整個爬蟲重啟的意思,應該是不允許同一段程式重複執行。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃