logo
Loading...

Goodinfo! 台灣股市資訊網 - 類股分類表 - 簡報 - 【教材專區】Python網路爬蟲工作坊|金融應用篇 - Cupoy

Context 爬蟲目標介 爬蟲流程講解 應對反爬蟲機制的方法 爬蟲程式 demo 與講解 (colab) Q & A Goodinfo! 台灣股市資訊網 - 類股分類表要學到什麼? 學習...

Context 爬蟲目標介 爬蟲流程講解 應對反爬蟲機制的方法 爬蟲程式 demo 與講解 (colab) Q & A Goodinfo! 台灣股市資訊網 - 類股分類表要學到什麼? 學習觀察頁面結構熟悉搜尋物件所在的網頁節點,將抓取邏輯轉為程式 熟悉物件定位語法熟悉使用 BeautifulSoup 語法進行物件定位 學習使用 proxy 發送請求使用 Requests 套件送出經過 proxy 的請求 學習應對網站反爬機制了解不同方式避開網站的反爬蟲機制 爬蟲目標介紹從 Goodinfo! 獲取所有類別及其下方所有股票代號及名稱 目標頁面觀察詳細確認目標資料的所在位置和規律(以頁面講解) 爬蟲遇到反爬蟲機制多測試幾次後,發現 Goodinfo! 會限制同一 IP 請求次數 應對反爬蟲機制的方法 發送 Requests 帶上 Headers 隨機替換 Headers 中的 User-Agent 隨機替換 Headers 中的 Referer 經由 Proxy 發送 Requests 添加隨機延時 在網站流量的離峰時間爬蟲 增加隨機的瀏覽動作 (selenium) 使用 headless browser (selenium) 發送 Requests 帶上 Headers 隨機替換 Headers 中的 User-Agent 隨機替換 Headers 中的 Referer 經由 Proxy 發送 Requests多測試幾次後,發現 Goodinfo! 會限制同一 IP 請求次數 添加隨機延時 在網站流量的離峰時間爬蟲如果在尖峰時段爬取,通常爬蟲程序的換頁速度比正常人瀏覽快很多,如此一來也會更明顯的拖累網站本身的效能和用戶體驗; 在離峰時間爬取、並配合前面提過的隨機延時,可以避免讓伺服器超過負荷。 增加隨機的瀏覽動作 (selenium)如果爬蟲步驟越固定,越容易被網站偵測出是程序;在使用 Selenium 時可以增加一些隨機的滾動或點擊行為,讓網站覺得你的程序越像真人的行為。 使用 headless browser (selenium) 範例程式碼https://www.cupoy.com/collection/00000180B6E4E37F000000026375706F795F72656C656173654355/00000181F35962630000002C6375706F795F72656C656173654349