logo
Loading...

動態多網頁爬取技巧詢問(期末專案問題請教) - Cupoy

您好我目前在製作期末專題,目標是想把ettoday七月份國際版的標題爬取下來,然後作關鍵字的分析。首...

動態多網頁爬取技巧詢問(期末專案問題請教)

2020/08/06 下午 05:32
Python網路爬蟲討論版
Youpin
觀看數:2
回答數:2
收藏數:0

您好

我目前在製作期末專題,目標是想把ettoday七月份國際版的標題爬取下來,然後作關鍵字的分析。

首先使用webdriver爬取時間及標題,單網頁爬的話問題,但七月份有31天,其中每一天有一個網址。

例如:https://www.ettoday.net/news/news-list-2020-7-3-2.htm

https://www.ettoday.net/news/news-list-2020-7-14-2.htm

其中的規律在於2020-7-[1-31]-2.htm 這樣的變化

我不太清楚該以怎樣的迴圈才能一次把這31頁寫在一起呢?

黃色部分若只放一個網頁如2020-7-1-2.htm  這樣的話沒有問題

但要一次爬31頁就會出現錯誤


煩請指教,謝謝! 

回答列表

  • 2020/08/07 上午 10:40
    Jia
    贊同數:3
    不贊同數:0
    留言數:0

    如果你只是要單純抓7月份的話 (不需日期套件),

    可以把 while 換成 for ,並把變數來代入組成字串。

    像是:


    * 附註:字串前面加上 f 是指 f-string 格式化字串,從 Python 3.6 開始支援。

  • 2020/08/10 下午 06:46
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    嗨,這邊會建議:1. 先找到規律 2. 利用 loop (for/while) 方式實現,就像 Jia 這樣的解法!


    如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個社群活動:學員限定!CUPOY 馬拉松線上小聚 👨🏻‍💻👨🏻‍💻,歡迎一起來玩玩!