logo
Loading...

scrapy抓取不到資料 - Cupoy

我寫出以下這段程式但無法爬到任何東西,試了許久,請問問題發生在哪個部分import scrapyim...

d26,scrapy

scrapy抓取不到資料

2020/01/04 下午 06:30
Python網路爬蟲討論版
王得宇
觀看數:16
回答數:1
收藏數:2
d26
scrapy

我寫出以下這段程式

但無法爬到任何東西,試了許久,請問問題發生在哪個部分

import scrapy
import re
import bs4
from urllib.parse import urljoin
from pprint import pprint
import requests

class pttcraweler(scrapy.Spider):
    name='ptt'
    start_url=['https://www.ptt.cc/bbs/Boy-Girl/M.1578074538.A.7FB.html']
    allowed_domains = ['www.ptt.cc']
    cookies = {'over18': '1'}
    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse, cookies=self.cookies)
    def parse(self, response):
        res = bs4.BeautifulSoup(response.body)
        for re in res.find_all('div',class_='article-metaline'):
            print(re.find('span' , class_='article-meta-tag').text)
            print(re.find('span',class_='article-meta-value').text)
        for ap in res.find_all('div', class_='push'):
            try:
                print(ap.find('span', class_='hl push-tag').text, ap.find('span', class_='f3 hl push-userid').text,
                      ap.find('span', class_='f3 push-content').text, ap.find('span', class_='push-ipdatetime').text)
            except:
                print(ap.find('span', class_='f1 hl push-tag').text, ap.find('span', class_='f3 hl push-userid').text,
                      ap.find('span', class_='f3 push-content').text, ap.find('span', class_='push-ipdatetime').text)

回答列表

  • 2020/01/06 下午 00:22
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:2

    無法爬到任何東西,試了許久,請問問題發生在哪個部分」,請問有任何錯誤訊息嗎?或是卡住不動?還是不會執行嗎?