實作 PTT 多網頁爬蟲的實作的兩個方向之間的差異 - Cupoy

在本日教材閱讀中，對以下文字有疑問: Scrapy 多網頁實作我們目前的爬蟲功能是對「所有給予的 P...

scrapy

實作 PTT 多網頁爬蟲的實作的兩個方向之間的差異

2021/06/22 下午 02:56

Scrapy 大規模多網頁爬蟲框架實作

Vincent_1231995

觀看數：13

回答數：1

收藏數：0

scrapy

在本日教材閱讀中，對以下文字有疑問: Scrapy 多網頁實作我們目前的爬蟲功能是對「所有給予的 PTT 文章網址」進行爬蟲實作 PTT 多網頁爬蟲的實作有兩個方向 **1.外部決定網址 + 框架對給予網址進行爬蟲** * 在外部 (e.g. main.py) 對文章列表進行爬蟲取得所有文章網址 * 把所有文章網址傳入 scrapy 爬蟲 **2.框架爬文章列表 + 文章內容** 這兩種方式都可以，但是**先從外部取得網址的方式會比較慢**，這邊我們可以更深入了解框架送請求的過程為什麼會比較快。 ================================================================================== 1.在本日作業中的兩個解壓縮資料夾中(Scrapy_API和Scrapy_PPT)，觀察各自main.py和PTTCrawler.py內的差異，可以知道Scrapy_PPT中的做法是上述介紹的第一種，也就是"外部決定網址 + 框架對給予網址進行爬蟲"，透過外部選項board和外部參數給定"Gossiping"來決定爬蟲內部處理的文章列表與內容；那麼相對地，在Scrapy_API中的做法，也就是在main.py中直接透過target_urls指定所有網址、再由爬蟲執行處理，是否即為上述介紹的第二種作法(框架爬文章列表 + 文章內容)嗎? 2.文中還有提及"從外部取得網址的方式會比較慢"，這也是指上述的第二種作法(框架爬文章列表 + 文章內容)嗎? 3. ![image](http://kwassistfile.cupoy.com/0000017A3270E4E10000000A6375706F795F72656C656173655155455354/1623842559474/large) 教材中這部分的說明，意思是否為"透過外部選項board和外部參數給定"Gossiping"來決定爬蟲內部處理的文章列表與內容"時，爬蟲的命令列就會是scrapy crawl PPTCrawler -a board=Gossiping? 而若是一般直接指定網址的做法，就直接輸入命令列scrapy crawl PPTCrawler? 問題較多，再請專家撥冗回覆，感謝~

回答列表

2021/06/25 下午 02:54

Rene Wang

贊同數：0

不贊同數：0

留言數：0

根據 PTTCrawaler 的 code，若直接執行 scrapy crawl PTTCrawer，會直接採用預設的 Gossiping 當作 board 的參數傳入。