logo
Loading...

F12看到的class名稱為什麼爬取資料時看不到 - Cupoy

您好:我想爬取 Cupoy熱門新聞的網站  中的新聞標題,但是我用BeautifulSoup爬取內容...

pycrawler,pycrawler-d10

F12看到的class名稱為什麼爬取資料時看不到

2019/12/07 下午 04:48
Python網路爬蟲討論版
小糖果
觀看數:115
回答數:2
收藏數:1
pycrawler
pycrawler-d10

您好:

我想爬取 Cupoy熱門新聞的網站  中的新聞標題,但是我用BeautifulSoup爬取內容和F12瀏覽器端看到的內容不同,請問是為什麼呢?



我在soup中找不到 h6 class = sc-lnmtFM sc-dznXNo IFxPu


謝謝!

回答列表

  • 2019/12/07 下午 11:54
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    你說的不同是一邊是 <h3> ,但另一邊是 <h6> 嗎?

  • 2019/12/08 下午 11:02
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    嗨, @小糖果, 這是一個好問題。這邊我先盡量解釋看看,如果還是不理解的話再追問!


    一般網頁原始碼的產生有兩種形式:


    1. Server-Side render (靜態網頁):是在 Server 端就產生好 HTML 資料,通常會使用後端語言,例如 PHP、JAVA、Python 等等。

    2. Client-Side render(動態網頁):Server 端只會回傳相對空白的 HTML 網頁 + JavaScript 語法,等到瀏覽器接收到回傳後執行 JavaScript 才會產生更完整的結構。


    這兩種方法是可以並存的。而一般我們只用 Request 的話只可以得到第一段的結果,因為我們並沒有執行到 JavaScript 才會產生更完整的結構 這個部分。因此爬蟲爬到的是 Server-Side render,但網頁看 F12 看到的是 Client-Side render。第二種方法具體的操作會在後續的課程提到!