Loading...

期末專題爬取新聞問題 - Cupoy

如標題，新聞分佈在不同的網站，目前抓了500筆新聞，觀察共分佈在83個不同的網站中想請教要怎麼從83...

pycrawler,pycrawler-d38

期末專題爬取新聞問題

2020/02/16 上午 11:54

Python網路爬蟲討論版

JJLai

觀看數：11

回答數：3

收藏數：1

pycrawler

pycrawler-d38

如標題，新聞分佈在不同的網站，目前抓了500筆新聞，觀察共分佈在83個不同的網站中

想請教要怎麼從83個不同的網站中，把新聞的主文給爬下來

是否真的需要一個個去看83個網站中的架構，區分83個程式 (主文的標籤結構可能不同)，才能把主文給爬下來

我怕看完83個網站，期末就結束了，來不及做完。

回答列表

2020/02/18 上午 01:00

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

嗨，這個部分我跟主辦單位討論一下！
2020/02/20 下午 02:11

計弘達

贊同數：1

不贊同數：0

留言數：2

從你的問題描述，我猜你是選擇爬取 cupoy 的新聞訊息。我的回答是：

從 https://www.cupoy.com/newsfeed/topstory   任一分類網站爬下的資訊包含：title、文章原始網站 url、文章分類、文章摘要等資訊，除可以章這些資訊以dict、pandas等結構暫存之外，還可存成 excel 檔案。

而這 500 篇文章可透過之前紀錄下的 url 分別去爬取，文章純文字的部分在網站中都是以下面這樣的格式存在。

<p>........</p>

因此，可以用一個迴圈掃一遍所有 500 個 url，在回圈內用以下指令提取每一個 url 內的所有純文字，再以純文字的方式存成 txt 檔，每一篇文章一個文字檔案。

    html = BeautifulSoup(resp.text, "lxml")

    content = html.find_all(name='p')

Paul Chi
2020/02/21 上午 03:16

Felix

贊同數：

不贊同數：

留言數：

其實我本來也想做這件事情，這樣自己能掌控的資料會比較多，但還有參加的深度學習與電腦視覺馬拉松也進入期末專題環節(敝人還有一些課題未做完)，所以就選擇不同的方向進行，但也著實花了不少時間...