使用BeautifulSoup時，如何選擇適當的解析器

2020/01/24 上午 10:41

Python網路爬蟲討論版

林睿晢

觀看數：2

回答數：1

收藏數：0

pycrawler

pycrawler-d14

各位專家們，有個問題請教一下，soup = BeautifulSoup(resp.text, 'lxml')裡面的'lxml'，在本次作業是用這個解析器，但是我看到Day 13的卻是使用html5lib，對此我查了https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id53，發現是解析器的不同，不過我還是不理解哪時候要用哪個會比較好?請教各位專家了

回答列表

2020/01/24 下午 04:02

張維元 (WeiYuan)

贊同數：3

不贊同數：0

留言數：2

嗨，這三個工具主要是告訴 BeatifulSoup 要如何解析 HTML 語法而已，目的是一樣的，嚴格來說差異應該是「嚴謹跟精準程度」跟「效能速度」上略有差異，不過對於使用上我覺得沒有什麼不同。如果你有興趣的話，可以參考一下文件的說明：https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

一般來說： lxml 比較新比較厲害，html5lib 是預設的。