logo
Loading...

使用BeautifulSoup時,如何選擇適當的解析器 - Cupoy

各位專家們,有個問題請教一下,soup = BeautifulSoup(resp.text, 'lx...

pycrawler,pycrawler-d14

使用BeautifulSoup時,如何選擇適當的解析器

2020/01/24 上午 10:41
Python網路爬蟲討論版
林睿晢
觀看數:2
回答數:1
收藏數:0
pycrawler
pycrawler-d14

各位專家們,有個問題請教一下,soup = BeautifulSoup(resp.text, 'lxml')裡面的'lxml',在本次作業是用這個解析器,但是我看到Day 13的卻是使用html5lib,對此我查了https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id53,發現是解析器的不同,不過我還是不理解哪時候要用哪個會比較好?請教各位專家了

回答列表

  • 2020/01/24 下午 04:02
    張維元 (WeiYuan)
    贊同數:3
    不贊同數:0
    留言數:2

    嗨,這三個工具主要是告訴 BeatifulSoup 要如何解析 HTML 語法而已,目的是一樣的,嚴格來說差異應該是「嚴謹跟精準程度」跟「效能速度」上略有差異,不過對於使用上我覺得沒有什麼不同。如果你有興趣的話,可以參考一下文件的說明:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser


    一般來說: lxml 比較新比較厲害,html5lib 是預設的。