logo
Loading...

期末專題爬取新聞問題 - Cupoy

如標題,新聞分佈在不同的網站,目前抓了500筆新聞,觀察共分佈在83個不同的網站中想請教要怎麼從83...

pycrawler,pycrawler-d38

期末專題爬取新聞問題

2020/02/16 上午 11:54
Python網路爬蟲討論版
JJLai
觀看數:11
回答數:3
收藏數:1
pycrawler
pycrawler-d38

如標題,新聞分佈在不同的網站,目前抓了500筆新聞,觀察共分佈在83個不同的網站中

想請教要怎麼從83個不同的網站中,把新聞的主文給爬下來

是否真的需要一個個去看83個網站中的架構,區分83個程式 (主文的標籤結構可能不同),才能把主文給爬下來

我怕看完83個網站,期末就結束了,來不及做完。

回答列表

  • 2020/02/18 上午 01:00
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:1

    嗨,這個部分我跟主辦單位討論一下!

  • 2020/02/20 下午 02:11
    計弘達
    贊同數:1
    不贊同數:0
    留言數:2

    從你的問題描述,我猜你是選擇爬取 cupoy 的新聞訊息。我的回答是:


    https://www.cupoy.com/newsfeed/topstory   任一分類網站爬下的資訊包含:title、文章原始網站 url、文章分類、文章摘要等資訊,除可以章這些資訊以dict、pandas等結構暫存之外,還可存成 excel 檔案。


    而這 500 篇文章可透過之前紀錄下的 url 分別去爬取,文章純文字的部分在網站中都是以下面這樣的格式存在。


    <p>........</p>


    因此,可以用一個迴圈掃一遍所有 500 個 url,在回圈內用以下指令提取每一個 url 內的所有純文字,再以純文字的方式存成 txt 檔,每一篇文章一個文字檔案。


        html = BeautifulSoup(resp.text, "lxml")

        content = html.find_all(name='p')



    Paul Chi

  • 2020/02/21 上午 03:16
    Felix
    贊同數:
    不贊同數:
    留言數:

    其實我本來也想做這件事情,這樣自己能掌控的資料會比較多,但還有參加的深度學習與電腦視覺馬拉松也進入期末專題環節(敝人還有一些課題未做完),所以就選擇不同的方向進行,但也著實花了不少時間...