scrapy抓取不到資料
2020/01/04 下午 06:30
Python網路爬蟲討論版
王得宇
觀看數:16
回答數:1
收藏數:2
d26
scrapy
我寫出以下這段程式
但無法爬到任何東西,試了許久,請問問題發生在哪個部分
import scrapy
import re
import bs4
from urllib.parse import urljoin
from pprint import pprint
import requests
class pttcraweler(scrapy.Spider):
name='ptt'
start_url=['https://www.ptt.cc/bbs/Boy-Girl/M.1578074538.A.7FB.html']
allowed_domains = ['www.ptt.cc']
cookies = {'over18': '1'}
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url=url, callback=self.parse, cookies=self.cookies)
def parse(self, response):
res = bs4.BeautifulSoup(response.body)
for re in res.find_all('div',class_='article-metaline'):
print(re.find('span' , class_='article-meta-tag').text)
print(re.find('span',class_='article-meta-value').text)
for ap in res.find_all('div', class_='push'):
try:
print(ap.find('span', class_='hl push-tag').text, ap.find('span', class_='f3 hl push-userid').text,
ap.find('span', class_='f3 push-content').text, ap.find('span', class_='push-ipdatetime').text)
except:
print(ap.find('span', class_='f1 hl push-tag').text, ap.find('span', class_='f3 hl push-userid').text,
ap.find('span', class_='f3 push-content').text, ap.find('span', class_='push-ipdatetime').text)
回答列表
-
2020/01/06 下午 00:22張維元 (WeiYuan)贊同數:0不贊同數:0留言數:2
「無法爬到任何東西,試了許久,請問問題發生在哪個部分」,請問有任何錯誤訊息嗎?或是卡住不動?還是不會執行嗎?