動態多網頁爬取技巧詢問(期末專案問題請教)
2020/08/06 下午 05:32
Python網路爬蟲討論版
Youpin
觀看數:2
回答數:2
收藏數:0
您好
我目前在製作期末專題,目標是想把ettoday七月份國際版的標題爬取下來,然後作關鍵字的分析。
首先使用webdriver爬取時間及標題,單網頁爬的話問題,但七月份有31天,其中每一天有一個網址。
例如:https://www.ettoday.net/news/news-list-2020-7-3-2.htm
https://www.ettoday.net/news/news-list-2020-7-14-2.htm
其中的規律在於2020-7-[1-31]-2.htm 這樣的變化
我不太清楚該以怎樣的迴圈才能一次把這31頁寫在一起呢?
黃色部分若只放一個網頁如2020-7-1-2.htm 這樣的話沒有問題
但要一次爬31頁就會出現錯誤
煩請指教,謝謝!
回答列表
-
2020/08/07 上午 10:40Jia贊同數:3不贊同數:0留言數:0
如果你只是要單純抓7月份的話 (不需日期套件),
可以把 while 換成 for ,並把變數來代入組成字串。
像是:
* 附註:字串前面加上 f 是指 f-string 格式化字串,從 Python 3.6 開始支援。
-
2020/08/10 下午 06:46張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
嗨,這邊會建議:1. 先找到規律 2. 利用 loop (for/while) 方式實現,就像 Jia 這樣的解法!
如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個社群活動:學員限定!CUPOY 馬拉松線上小聚 👨🏻💻👨🏻💻,歡迎一起來玩玩!