logo
Loading...

抓取圖片標籤問題? - Cupoy

1.一個HTML網頁碼當中可能有很多地方都有出現圖片網址,所以不同人寫程式碼是不是自己觀察只要能夠f...

pycrawler

抓取圖片標籤問題?

2019/12/20 下午 09:29
Python網路爬蟲討論版
Emma
觀看數:6
回答數:2
收藏數:1
pycrawler

1.一個HTML網頁碼當中可能有很多地方都有出現圖片網址,所以不同人寫程式碼是不是自己觀察只要能夠find抓取得到圖片網址的標籤就行了?!大家所利用的網址可能是不同行的相同網址所以在不同的標籤下?

2.針對這個標籤<a href="https://imgur.com/Cgb5oo1" rel="nofollow" target="_blank">

裡面的href,rel,target 是否都算是屬性?

回答列表

  • 2019/12/21 下午 02:39
    Chen-Ming Yang
    贊同數:3
    不贊同數:0
    留言數:0

    1. 是的沒錯,但是在爬的時候還是要注意一下你抓的規則會不會爬到你不需要的圖片

    通常我們寫爬蟲會帶有目的性,e.g. 某個區域的圖片我希望抓下來的時候直接分類,這樣我就會只針對某個區域裡的圖片做 find 而不是全域搜索


    2. 是的沒錯

  • 2019/12/22 上午 00:16
    張維元 (WeiYuan)
    贊同數:2
    不贊同數:0
    留言數:0

    一個 HTML 元素分為三個部分:標籤、屬性、內容,以這個為例:


    <a href="https://imgur.com/Cgb5oo1" rel="nofollow" target="_blank">Hello World</a>


    => a 代表的是 標籤,href、rel、target 是屬性,Hello World 為內容。一般爬蟲的思路會先觀察你的物件在網頁中的哪個位置,利用屬性跟標籤的方式定位,最後再取出需要的部分。