Goodinfo! 台灣股市資訊網 - 類股分類表 - 簡報 - 【教材專區】Python網路爬蟲工作坊｜金融應用篇 - Cupoy

Context 爬蟲目標介爬蟲流程講解應對反爬蟲機制的方法爬蟲程式 demo 與講解 (colab) Q & A Goodinfo! 台灣股市資訊網 - 類股分類表要學到什麼？學習...

Context 爬蟲目標介爬蟲流程講解應對反爬蟲機制的方法爬蟲程式 demo 與講解 (colab) Q & A Goodinfo! 台灣股市資訊網 - 類股分類表要學到什麼？學習觀察頁面結構熟悉搜尋物件所在的網頁節點，將抓取邏輯轉為程式熟悉物件定位語法熟悉使用 BeautifulSoup 語法進行物件定位學習使用 proxy 發送請求使用 Requests 套件送出經過 proxy 的請求學習應對網站反爬機制了解不同方式避開網站的反爬蟲機制爬蟲目標介紹從 Goodinfo! 獲取所有類別及其下方所有股票代號及名稱目標頁面觀察詳細確認目標資料的所在位置和規律（以頁面講解）爬蟲遇到反爬蟲機制多測試幾次後，發現 Goodinfo! 會限制同一 IP 請求次數應對反爬蟲機制的方法發送 Requests 帶上 Headers 隨機替換 Headers 中的 User-Agent 隨機替換 Headers 中的 Referer 經由 Proxy 發送 Requests 添加隨機延時在網站流量的離峰時間爬蟲增加隨機的瀏覽動作 (selenium) 使用 headless browser (selenium) 發送 Requests 帶上 Headers 隨機替換 Headers 中的 User-Agent 隨機替換 Headers 中的 Referer 經由 Proxy 發送 Requests多測試幾次後，發現 Goodinfo! 會限制同一 IP 請求次數添加隨機延時在網站流量的離峰時間爬蟲如果在尖峰時段爬取，通常爬蟲程序的換頁速度比正常人瀏覽快很多，如此一來也會更明顯的拖累網站本身的效能和用戶體驗；在離峰時間爬取、並配合前面提過的隨機延時，可以避免讓伺服器超過負荷。增加隨機的瀏覽動作 (selenium)如果爬蟲步驟越固定，越容易被網站偵測出是程序；在使用 Selenium 時可以增加一些隨機的滾動或點擊行為，讓網站覺得你的程序越像真人的行為。使用 headless browser (selenium) 範例程式碼https://www.cupoy.com/collection/00000180B6E4E37F000000026375706F795F72656C656173654355/00000181F35962630000002C6375706F795F72656C656173654349