請問scrapy中有類似BeautifulSoup 內extract()的功能嗎?
2020/03/27 上午 01:18
Python網路爬蟲討論版
Li Yuang
觀看數:5
回答數:1
收藏數:1
pycrawler-2
在作業Day27有提到scrapy的"元素定位方式",可使用css、xpath 功能取得元素片段,所以想將Day26中的Pttcrawler.py 中的程式碼改寫成這種定位方式(不依靠BeautifulSoup),原本程式中有部分程式碼為將html標籤片段extract()出來,同時從原本的tree中移除。(多行註解的部分)
請問scrapy中有類似功能的函數呼叫嗎?
回答列表
-
2020/03/27 上午 02:27張維元 (WeiYuan)贊同數:1不贊同數:0留言數:0
Hi, Li Yuang
剛剛快速的搜尋了一下,沒有看到。不過有看這有人建議這種做法:
```
content = hxs.select("//div[@id='content']").extract()[0] infobox = hxs.select("//div[@id='content']//div[@class='infobox']").extract()[0] item['article_html'] = content.replace(infobox, "")
```
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃