header問題
2019/12/17 下午 00:54
Python網路爬蟲討論版
cham chen
觀看數:0
回答數:1
收藏數:1
今天有發布一個Header擷取的貼文,我有嘗試步驟直到上圖。
想問
1.為何不用將全部的request header打成dict code呢? (因為看HW裡,並沒有全部放入)
2.我有嘗試全部放入,但一定要把"紅色箭頭"的東西註解掉,才可以run成功,想問裡面原理為何?
回答列表
-
2019/12/17 下午 00:59張維元 (WeiYuan)贊同數:2不贊同數:0留言數:3
嗨,是否需要加 Headers 或需要加哪些欄位其實是決定於對方 Server 會不會利用 Headers 作為檢查。這件事通常無法事先得知,建議直接打打看,透過嘗試的方式來判斷。
簡單回覆你的兩個問題:
1.為何不用將全部的request header打成dict code呢? (因為看HW裡,並沒有全部放入)
=> 因為在 HW 中,我有用「試」的方法整理出至少要哪些才可以成功。不過如果不確定的話,可以先全帶(這樣可以確保拿到跟瀏覽器一樣的結果)。
2.我有嘗試全部放入,但一定要把"紅色箭頭"的東西註解掉,才可以run成功,想問裡面原理為何?
=> 有些額外的例子,例如知乎網站的 encoding,或是你這個例子中的 if-modified-since 可能都是對方特殊的檢查機制。像這種 if-modified-since 有時間的內容,可能會檢查是否在有效時間內發出的 (?)