logo
Loading...

關於BeautifulSoup 解析器相關問題 - Cupoy

爬不同網站時使用BeautifulSoup的"解析器"(parser)是不一樣的,請問是每一種網頁都...

pycrawler-2,pycrawler-2-d25

關於BeautifulSoup 解析器相關問題

2020/03/22 02:56 PM
Python網路爬蟲論壇
Li Yuang
觀看數:0
回答數:1
收藏數:0
pycrawler-2
pycrawler-2-d25

爬不同網站時使用BeautifulSoup的"解析器"(parser)是不一樣的,請問是每一種網頁都有其適合的parser嗎?若是,請問要如何知道該網頁適合哪一種parser?


如 : 

"104人力銀行"   老師所給的sample 中的BeautifulSoup用的parser 用的是 "lxml",

"空氣汙染監測"   老師所給的sample 中的BeautifulSoup用的parser 用的是 "html.parser" 

"東森新聞雲" 用的是"lxml"

"Ptt" "html5lib"  等等


上網友查到這些解析器之間的差別(網址 : https://www.itread01.com/content/1506956293.html)

但仍是不明白他們之間有什麼確切差別,如三者都有容錯力高的優點,但他們之間有什麼確切差別,如三者都有容錯力高的優點,但表格中說lxml速度快(但作業使用時覺得好像沒有什麼差)

,html5lib將文檔轉html5格式(我不懂跟轉其他格式有何優劣差別),html.parser 補tag的能力較差(也是沒感覺XD)