請問scrapy中有類似BeautifulSoup 內extract()的功能嗎?

2020/03/27 上午 01:18

Python網路爬蟲討論版

Li Yuang

觀看數：5

回答數：1

收藏數：1

pycrawler-2

在作業Day27有提到scrapy的"元素定位方式"，可使用css、xpath 功能取得元素片段，所以想將Day26中的Pttcrawler.py 中的程式碼改寫成這種定位方式(不依靠BeautifulSoup)，原本程式中有部分程式碼為將html標籤片段extract()出來，同時從原本的tree中移除。(多行註解的部分)

請問scrapy中有類似功能的函數呼叫嗎?

回答列表

2020/03/27 上午 02:27

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

Hi, Li Yuang

剛剛快速的搜尋了一下，沒有看到。不過有看這有人建議這種做法：

```

content = hxs.select("//div[@id='content']").extract()[0] infobox = hxs.select("//div[@id='content']//div[@class='infobox']").extract()[0] item['article_html'] = content.replace(infobox, "")

```

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃