期末專題爬取新聞問題
2020/02/16 上午 11:54
Python網路爬蟲討論版
JJLai
觀看數:11
回答數:3
收藏數:1
pycrawler
pycrawler-d38
如標題,新聞分佈在不同的網站,目前抓了500筆新聞,觀察共分佈在83個不同的網站中
想請教要怎麼從83個不同的網站中,把新聞的主文給爬下來
是否真的需要一個個去看83個網站中的架構,區分83個程式 (主文的標籤結構可能不同),才能把主文給爬下來
我怕看完83個網站,期末就結束了,來不及做完。
回答列表
-
2020/02/18 上午 01:00張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
嗨,這個部分我跟主辦單位討論一下!
-
2020/02/20 下午 02:11計弘達贊同數:1不贊同數:0留言數:2
從你的問題描述,我猜你是選擇爬取 cupoy 的新聞訊息。我的回答是:
從 https://www.cupoy.com/newsfeed/topstory 任一分類網站爬下的資訊包含:title、文章原始網站 url、文章分類、文章摘要等資訊,除可以章這些資訊以dict、pandas等結構暫存之外,還可存成 excel 檔案。
而這 500 篇文章可透過之前紀錄下的 url 分別去爬取,文章純文字的部分在網站中都是以下面這樣的格式存在。
<p>........</p>
因此,可以用一個迴圈掃一遍所有 500 個 url,在回圈內用以下指令提取每一個 url 內的所有純文字,再以純文字的方式存成 txt 檔,每一篇文章一個文字檔案。
html = BeautifulSoup(resp.text, "lxml")
content = html.find_all(name='p')
Paul Chi
-
2020/02/21 上午 03:16Felix贊同數:不贊同數:留言數:
其實我本來也想做這件事情,這樣自己能掌控的資料會比較多,但還有參加的深度學習與電腦視覺馬拉松也進入期末專題環節(敝人還有一些課題未做完),所以就選擇不同的方向進行,但也著實花了不少時間...