使用selenium按頁面,會被偵查出出現 Access Denied (用一般瀏覽器是正常的)?
https://www.dnb.com/business-directory.html
用chrome driver 去點連結開頁面,會出現“Access denied”
可否請各位老師們幫忙指點一下,如何讓我的selenium chrome driver不要被擋呢?
我有個研究專案需要在這邊抓資料,
我已經有用 user-agent與proxy
謝謝
回答列表
-
2020/07/02 下午 10:46Jeffrey贊同數:1不贊同數:1留言數:3
另一種偽裝方式, 提供參考:
#要爬取的网站
url = "https://www.zhihu.com/"
#设置请求报头 头文件格式 headers = ("User-Agent", 用户具体代理值)
headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5558.400 QQBrowser/10.1.1695.400")
#创建一个opener
opener = urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders = [headers]
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen()方法打开网页
data = urllib.request.urlopen(url).read().decode('utf-8')
-
2020/07/05 下午 07:04張維元 (WeiYuan)贊同數:0不贊同數:0留言數:2
嗨,想要先確認一下
所以是網站進得去,但是切換到特定頁面才產生錯誤嗎?請問是哪一個頁面/還是所有頁面?
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃
-
2020/07/06 上午 00:28張維元 (WeiYuan)贊同數:1不贊同數:0留言數:2
用 requests + headers 是可以動的:
-
2020/07/06 上午 00:30張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
用 selenium 也是可以動的: