logo
Loading...

爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"以及如何知道何時要用 html5lib / lxml /.... ? - Cupoy

請問一下範例14中爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"(如下) , 另...

pycrawler-2,pycrawler-2-d14

爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"以及如何知道何時要用 html5lib / lxml /.... ?

2020/03/09 04:45 下午
Python網路爬蟲討論版
徐竟發
觀看數:3
回答數:1
收藏數:0
pycrawler-2
pycrawler-2-d14

請問一下範例14中爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"(如下) , 

另外, 如何知道何時要用 html5lib / lxml /....  ?


# 先觀察一下目前上映中的電影數量

url = 'https://movies.yahoo.com.tw/movie_intheaters.html'

resp = requests.get(url)

resp.encoding = 'utf-8'

soup = BeautifulSoup(resp.text, 'lxml')