爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"以及如何知道何時要用 html5lib / lxml /.... ?
2020/03/09 04:45 下午
Python網路爬蟲討論版
徐竟發
觀看數:3
回答數:1
收藏數:0
pycrawler-2
pycrawler-2-d14
請問一下範例14中爬取 yahoo 網頁資料, 為何抓取後解析需要設定為"lxml"(如下) ,
另外, 如何知道何時要用 html5lib / lxml /.... ?
# 先觀察一下目前上映中的電影數量
url = 'https://movies.yahoo.com.tw/movie_intheaters.html'
resp = requests.get(url)
resp.encoding = 'utf-8'
soup = BeautifulSoup(resp.text, 'lxml')