Loading...

爬蟲爬出來的HTML和網頁中按F12的HTML不同 - Cupoy

您好,我在網頁中按F12產生的HTML如下,可以發現一個主題中,只有一個class=PostEntr...

pycrawler,pycrawler-d08

AI共學社群

爬蟲爬出來的HTML和網頁中按F12的HTML不同

2019/12/06 下午 00:26

Python網路爬蟲討論版

葉碩涵

觀看數：13

回答數：3

收藏數：2

pycrawler

pycrawler-d08

您好,

我在網頁中按F12產生的HTML如下,

可以發現一個主題中,

只有一個class=PostEntry_root_V6g0rd,如下

<a class="PostEntry_root_V6g0rd" href="/f/relationship/p/232627269-欸，要分手多久之後，才可以談下段戀愛？">

</a>

但我爬出來的東西,

一個主題中有好多個class=PostEntry_root_V6g0rd,如下

想請問為什麼會這樣?

謝謝

回答列表

2019/12/06 下午 01:33

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

嗨，可以看一下你爬的程式碼嗎？
2019/12/06 下午 02:29

張維元 (WeiYuan)

贊同數：

不贊同數：

留言數：

嗨，我剛剛測了一下，也有發現這個問題欸。感覺應該是 Dcard 可以使用了什麼神秘的暫存機制（導致爬到的網頁跟瀏覽器開的網頁不同步）。
2019/12/06 下午 03:00

張維元 (WeiYuan)

贊同數：2

不贊同數：0

留言數：4

嗨嗨，我發現問題了，應該是預設的解析器（html5lib）造成的，你把它改成 lxml 可以抓到正確的結果：

```

soup = BeautifulSoup(response, "lxml")

```