爬蟲爬出來的HTML和網頁中按F12的HTML不同
2019/12/06 下午 00:26
Python網路爬蟲討論版
葉碩涵
觀看數:13
回答數:3
收藏數:2
pycrawler
pycrawler-d08
您好,
我在網頁中按F12產生的HTML如下,
可以發現一個主題中,
只有一個class=PostEntry_root_V6g0rd,如下
<a class="PostEntry_root_V6g0rd" href="/f/relationship/p/232627269-欸,要分手多久之後,才可以談下段戀愛?">
</a>
但我爬出來的東西,
一個主題中有好多個class=PostEntry_root_V6g0rd,如下
想請問為什麼會這樣?
謝謝
回答列表
-
2019/12/06 下午 01:33張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
嗨,可以看一下你爬的程式碼嗎?
-
2019/12/06 下午 02:29張維元 (WeiYuan)贊同數:不贊同數:留言數:
嗨,我剛剛測了一下,也有發現這個問題欸。感覺應該是 Dcard 可以使用了什麼神秘的暫存機制(導致爬到的網頁跟瀏覽器開的網頁不同步)。
-
2019/12/06 下午 03:00張維元 (WeiYuan)贊同數:2不贊同數:0留言數:4
嗨嗨,我發現問題了,應該是預設的解析器(html5lib)造成的,你把它改成 lxml 可以抓到正確的結果:
```
soup = BeautifulSoup(response, "lxml")
```