logo
Loading...

請問scrapy中有類似BeautifulSoup 內extract()的功能嗎? - Cupoy

在作業Day27有提到scrapy的"元素定位方式",可使用css、xpath 功能取得元素片段,所...

pycrawler-2

請問scrapy中有類似BeautifulSoup 內extract()的功能嗎?

2020/03/27 上午 01:18
Python網路爬蟲討論版
Li Yuang
觀看數:5
回答數:1
收藏數:1
pycrawler-2

在作業Day27有提到scrapy的"元素定位方式",可使用css、xpath 功能取得元素片段,所以想將Day26中的Pttcrawler.py 中的程式碼改寫成這種定位方式(不依靠BeautifulSoup),原本程式中有部分程式碼為將html標籤片段extract()出來,同時從原本的tree中移除。(多行註解的部分)

請問scrapy中有類似功能的函數呼叫嗎?

回答列表

  • 2020/03/27 上午 02:27
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    Hi, Li Yuang


    剛剛快速的搜尋了一下,沒有看到。不過有看這有人建議這種做法


    ```

    content = hxs.select("//div[@id='content']").extract()[0] infobox = hxs.select("//div[@id='content']//div[@class='infobox']").extract()[0] item['article_html'] = content.replace(infobox, "")

    ```


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃