logo
Loading...

實作 PTT 多網頁爬蟲的實作的兩個方向之間的差異 - Cupoy

在本日教材閱讀中,對以下文字有疑問: Scrapy 多網頁實作我們目前的爬蟲功能是對「所有給予的 P...

scrapy

實作 PTT 多網頁爬蟲的實作的兩個方向之間的差異

2021/06/22 下午 02:56
Scrapy 大規模多網頁爬蟲框架實作
Vincent_1231995
觀看數:13
回答數:1
收藏數:0
scrapy

在本日教材閱讀中,對以下文字有疑問: Scrapy 多網頁實作 我們目前的爬蟲功能是對「所有給予的 PTT 文章網址」進行爬蟲 實作 PTT 多網頁爬蟲的實作有兩個方向 **1.外部決定網址 + 框架對給予網址進行爬蟲** * 在外部 (e.g. main.py) 對文章列表進行爬蟲取得所有文章網址 * 把所有文章網址傳入 scrapy 爬蟲 **2.框架爬文章列表 + 文章內容** 這兩種方式都可以,但是**先從外部取得網址的方式會比較慢**,這邊我們可以更深入了解框架送請求的過程為什麼會比較快。 ================================================================================== 1.在本日作業中的兩個解壓縮資料夾中(Scrapy_API和Scrapy_PPT),觀察各自main.py和PTTCrawler.py內的差異,可以知道Scrapy_PPT中的做法是上述介紹的第一種,也就是"外部決定網址 + 框架對給予網址進行爬蟲",透過外部選項board和外部參數給定"Gossiping"來決定爬蟲內部處理的文章列表與內容;那麼相對地,在Scrapy_API中的做法,也就是在main.py中直接透過target_urls指定所有網址、再由爬蟲執行處理,是否即為上述介紹的第二種作法(框架爬文章列表 + 文章內容)嗎? 2.文中還有提及"從外部取得網址的方式會比較慢",這也是指上述的第二種作法(框架爬文章列表 + 文章內容)嗎? 3. ![image](http://kwassistfile.cupoy.com/0000017A3270E4E10000000A6375706F795F72656C656173655155455354/1623842559474/large) 教材中這部分的說明,意思是否為"透過外部選項board和外部參數給定"Gossiping"來決定爬蟲內部處理的文章列表與內容"時,爬蟲的命令列就會是scrapy crawl PPTCrawler -a board=Gossiping? 而若是一般直接指定網址的做法,就直接輸入命令列scrapy crawl PPTCrawler? 問題較多,再請專家撥冗回覆,感謝~

回答列表

  • 2021/06/25 下午 02:54
    Rene Wang
    贊同數:0
    不贊同數:0
    留言數:0

    根據 PTTCrawaler 的 code,若直接執行 scrapy crawl PTTCrawer,會直接採用預設的 Gossiping 當作 board 的參數傳入。