logo
Loading...

爬取CUPOY新聞內容時遇到定位困難問題 - Cupoy

期末考試中我嘗試爬取以下網站:https://www.cupoy.com/newsfeed/topi...

pycrawler,pycrawler-d38

爬取CUPOY新聞內容時遇到定位困難問題

2020/07/05 下午 06:18
Python網路爬蟲討論版
Leo Siu
觀看數:9
回答數:1
收藏數:0
pycrawler
pycrawler-d38

期末考試中我嘗試爬取以下網站:

https://www.cupoy.com/newsfeed/topicgrp/tech_tw


但發現爬出來的內容有點怪,好像與其他同學爬出來的內容不同,想請教一下老師們我是否做錯了哪一個步驟,及如何才可正確定位到想要的內容,謝謝。




CODE如下:


結果爬出來SOUP的內容中我發現有兩個地方與新聞有關:


1.  如下圖div class = "sc-eEieub sc-iuDHTM emMJDZ"的部分

但此部分的問題是它與我在瀏覽器看到的新聞不同,且無論向下捲動多少次新聞數量都不會增加(遠少於500條)



2. 如下圖每一個 li class = 'item' 的部分

此部分與我在瀏覽器看到的新聞相同,向下捲動亦會增加新聞數量,但此處沒有category及更新時間,且網站有很多其他部分也採取同樣結構 <li class = 'item'>,比較難定位


回答列表

  • 2020/07/05 下午 07:00
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,關於「但發現爬出來的內容有點怪,好像與其他同學爬出來的內容不同,想請教一下老師們我是否做錯了哪一個步驟,及如何才可正確定位到想要的內容,謝謝。」


    => 這裡是因為 CUPOY 網站是動態的,也就是說是利用 JavaScript 動態載入的。可以先想一下,有沒有其他種解法。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃