F12看到的class名稱為什麼爬取資料時看不到
2019/12/07 下午 04:48
Python網路爬蟲討論版
小糖果
觀看數:115
回答數:2
收藏數:1
pycrawler
pycrawler-d10
您好:
我想爬取 Cupoy熱門新聞的網站 中的新聞標題,但是我用BeautifulSoup爬取內容和F12瀏覽器端看到的內容不同,請問是為什麼呢?
我在soup中找不到 h6 class = sc-lnmtFM sc-dznXNo IFxPu
謝謝!
回答列表
-
2019/12/07 下午 11:54張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
你說的不同是一邊是 <h3> ,但另一邊是 <h6> 嗎?
-
2019/12/08 下午 11:02張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
嗨, @小糖果, 這是一個好問題。這邊我先盡量解釋看看,如果還是不理解的話再追問!
一般網頁原始碼的產生有兩種形式:
1. Server-Side render (靜態網頁):是在 Server 端就產生好 HTML 資料,通常會使用後端語言,例如 PHP、JAVA、Python 等等。
2. Client-Side render(動態網頁):Server 端只會回傳相對空白的 HTML 網頁 + JavaScript 語法,等到瀏覽器接收到回傳後執行 JavaScript 才會產生更完整的結構。
這兩種方法是可以並存的。而一般我們只用 Request 的話只可以得到第一段的結果,因為我們並沒有執行到 JavaScript 才會產生更完整的結構 這個部分。因此爬蟲爬到的是 Server-Side render,但網頁看 F12 看到的是 Client-Side render。第二種方法具體的操作會在後續的課程提到!