logo
Loading...

爬蟲爬出來的HTML和網頁中按F12的HTML不同 - Cupoy

您好,我在網頁中按F12產生的HTML如下,可以發現一個主題中,只有一個class=PostEntr...

pycrawler,pycrawler-d08

爬蟲爬出來的HTML和網頁中按F12的HTML不同

2019/12/06 下午 00:26
Python網路爬蟲討論版
葉碩涵
觀看數:13
回答數:3
收藏數:2
pycrawler
pycrawler-d08

您好,

我在網頁中按F12產生的HTML如下,

可以發現一個主題中,

只有一個class=PostEntry_root_V6g0rd,如下

<a class="PostEntry_root_V6g0rd" href="/f/relationship/p/232627269-欸,要分手多久之後,才可以談下段戀愛?">

</a>

但我爬出來的東西,

一個主題中有好多個class=PostEntry_root_V6g0rd,如下

想請問為什麼會這樣?


謝謝

回答列表

  • 2019/12/06 下午 01:33
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,可以看一下你爬的程式碼嗎?

  • 2019/12/06 下午 02:29
    張維元 (WeiYuan)
    贊同數:
    不贊同數:
    留言數:

    嗨,我剛剛測了一下,也有發現這個問題欸。感覺應該是 Dcard 可以使用了什麼神秘的暫存機制(導致爬到的網頁跟瀏覽器開的網頁不同步)。

  • 2019/12/06 下午 03:00
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:4

    嗨嗨,我發現問題了,應該是預設的解析器(html5lib)造成的,你把它改成 lxml 可以抓到正確的結果:


    ```

    soup = BeautifulSoup(response, "lxml")

    ```