實務案例導向的網路爬蟲課 - Python 網路爬蟲實戰馬拉松

Python網路爬蟲實戰研習馬拉松 (2022新版)

本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術，到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術，最後是整合所學的期末實務專題，共包括7大學習里程碑，能夠完成大部分學習任務的學員

內容簡介

作者介紹

適合人群

你將會學到什麼

購買須知

[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化
[Part1] 爬蟲必備 Python 基礎1

介紹 Python 中常見的資料結構、處理與儲存方式，並搭配程式作業練習
- 網路爬蟲流程介紹
  
  認識網路爬蟲、流程及使用情境，並了解各環節的學習地圖
- 常見公開資料來源介紹
  
  網路上公開資料幾乎都可能成為我們爬蟲的標的，用來幫助我們應用的資料維度。
- 常見資料儲存格式介紹
  
  介紹文本或數據儲存格式，包含：CSV / TSV / JSON / HTML / XML / TXT 以及 ASCII, UTF-8, GBK, big5, Unicode 等字符編碼差異
- 了解 HTTP 網路基礎知識
  
  HTTP Server-Client 架構、GET / POST、HTTP 狀態碼、Session、Cookie、Restful API
- Restful API 介紹
  
  了解 Restful API 設計概念，以及如何使用 Python 串接 API
- 網頁架構基礎認知
  
  讓學員了解網頁架構與 HTML / CSS / JavaScript 的基本知識，對後面要學到的爬蟲定位語法有幫助
[Part2] 常見資料結構、檔案存取

介紹爬蟲需要的先備知識，包含認識公開資料、常見資料結構、HTTP 網路概念及網頁結構組成，透過概念題練習加深印象
- Python 資料結構介紹：Tuple / Set / List / Dictionary
  
  認識 Python 中常用的資料格式，對爬蟲取得的資料處理和儲存有幫助
- Python 實作 CSV 檔案存取與處理
  
  了解 CSV 檔案格式及優缺點，並學習使用 Python 操作 CSV 格式檔案
- Python 實作 JSON 檔案存取與處理
  
  了解 JSON 檔案格式及優缺點，並學習使用 Python 操作 JSON 格式檔案
- Python 實作 XML 檔案存取與處理
  
  了解 XML 檔案格式及優缺點，並學習使用 Python 操作 XML 格式檔案
[Part3] 網路封包知識介紹

介紹網路封包的傳輸和組成、如何利用開發者工具進行網站資源載入和標頭分析
- 網路封包介紹
  
  介紹網路封包、解釋封包內容、說明網站如何判斷請求來源的合法性
- 瀏覽器開發者工具介紹
  
  了解瀏覽器開發者工具的各項元素，對於規劃爬蟲邏輯有幫助
- 封包側錄工具介紹：Fiddler
  
  介紹封包側錄工具 Fiddler，並比較常見的封包工具
- 封包發送工具介紹：Postman
  
  介紹封包發送工具 Postman，並了解如何使用 Postman 發送 Requests
[Part4] Python 靜態網頁爬蟲

學習靜態網頁爬蟲，包含網頁結構分析、物件定位、擷取資訊
- 盤點爬蟲套件及工具
  
  複習爬蟲流程並盤點馬拉松會教到的爬蟲相關套件：requests / BeautifulSoup4 / Scrapy / Selenium
- 模擬 HTTP 請求：使用 Requests 套件
  
  了解靜態網頁的爬蟲策略，認識靜態網頁爬蟲的常用套件：Requests 並進行套件實作練習
- Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片
  
  爬蟲練習案例，使用 Requests 爬取圖片，搭配 PIL 套件判斷圖片格式以正確檔名儲存
- 網頁結構解析：使用網頁結構定位工具
  
  複習網頁結構組成、說明如何網頁結構解析，並介紹網頁節點定位語法 CSS Selector / XPath
- 網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector
  
  介紹 BeautifulSoup 套件如何和 Requests 搭配使用，並練習以 CSS Selector 定位網頁節點
- 網頁結構解析：使用 lxml 套件操作 XPath
  
  介紹 lxml 套件如何搭配 Requests 使用，並練習使用 XPath 語法定位網頁節點
- 更多的資料爬蟲工具介紹：Grab & PyQuery
  
  介紹另外兩個分別和 Requests、BeautifulSoup 功能類似的套件：Grab & PyQuery
- 使用正規表達式過濾並擷取資料
  
  介紹正規表達式的語法和運作方式，並學習如何在 Python 中使用
[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲的案例
- 靜態網頁爬蟲練習：ETTODAY
  
  練習爬取 ETTODAY 新聞網的新聞總覽列表，並思考儲存格式
- 靜態網頁案例：PTT(批踢踢)
  
  練習爬取 PTT 的文章列表並思考儲存格式
- 靜態網頁案例：Yahoo! 電影網頁
  
  練習爬取 Yahoo! 電影「上映中」的電影列表，及其詳細資訊（包含：電影名稱、期待度、滿意度、電影簡介）
- 靜態網頁案例：臺灣銀行牌告匯率
  
  練習爬取臺灣銀行牌告匯率
- 靜態網頁案例：Wikipedia
  
  練習爬取 Wikipedia 頁面上的關鍵字及其連結頁面的內容
[Part6] 動態爬蟲技術介紹

介紹動態網頁的原理、套件和工具
- 動態載入網站的爬蟲策略
  
  了解非同步動態載入機制如何運作，並回顧 Chrome 開發者工具
- 動態網頁爬蟲起手式：Selenium
  
  介紹 Selenium 及其使用時機，並說明 Selenium Webdriver 瀏覽器驅動程式安裝
- Selenium 物件定位 – CSS Selector
  
  學習如何在 Selenium 中使用 CSS Selector 並幫學員們盤點整理 CSS Selector 語法
- Selenium 物件定位 – XPath
  
  學習如何在 Selenium 中使用 XPath 並幫學員們盤點整理 XPath 語法
- Selenium 模擬瀏覽行為
  
  學習如何啟動 Webdriver 並用 Selenium 模擬用戶操作瀏覽器的行為，並整理各項瀏覽行為的 Selenium 語法
- 零代碼爬蟲自動化：Playwright
  
  認識 Playwright 及其優缺點、安裝步驟，並了解如何用 Playwright 錄製瀏覽器操作
[Part7] 動態網頁爬蟲實戰練習

動態網頁爬蟲的案例集合
- 動態網頁案例：Hahow
  
  練習爬取 Hahow 上所有課程名稱
- 動態網頁案例：Linkedin
  
  練習爬取自己 Linkedin 上所有聯絡人檔案連結及其頁面上的資訊
- 動態網頁案例：104 人力銀行
  
  練習爬取 104 人力銀行的公司列表
- 動態網頁案例：爬取 Shopee 商品圖片並轉檔
  
  練習爬取 Shopee 商品搜尋結果中的圖片並轉檔儲存
[Part8] 資料視覺化
- Matplotlib 及繪圖流程介紹
  
  認識 Python 的繪圖工具：Matplotlib 套件，並瞭解繪圖流程
- Matplotlib 繪圖元件介紹
  
  瞭解使用 Matplotlib 繪圖元件：畫版、子圖、圖表、圖例等，並講解繪圖流程
- Matplotlib 圖表範例解析
  
  以 Matplotlib 示範繪製不同類型的 Matplotlib 圖表：折線圖、長條圖、直方圖、圓餅圖、矩陣圖
- Seaborn：更簡潔的代碼與更美觀的圖表風格
  
  認識另一種 Python 繪圖工具：Seaborn，並比較 Seaborn 及 Matplotlib 之間的差異和優缺點；接著以相同圖表比較 Seaborn 與 Matplotlib 寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
- Plotly：更適合儀表板的互動式圖表
  
  認識另一種 Python 繪圖工具：Plotly，接著以 Plotly 展示不同種類圖表寫法（折線圖、長條圖、直方圖、圓餅圖、矩陣圖）
[Part9] Scrapy 網站爬蟲框架

透過 Scrapy 框架以專案角度學習非同步爬蟲
- Scrapy 爬蟲框架介紹
  
  介紹 Scrapy 及其架構圖，並建立第一個 Scrapy 專案
- Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹
  
  以 Scrapy 指令自動建立爬蟲程式，並利用 XPath 抓取資料
- Scrapy 爬蟲框架 - 資料輸出與log設定
  
  設定 Scrapy 爬蟲資料輸出格式和儲存路徑
- Scrapy 爬蟲框架：處理資料的 pipeline
  
  了解 Scrapy 內建定位元素的方式並針對資料處理邏輯所建立的流程與操作方式
- Scrapy 大規模多網頁爬蟲框架實作
  
  進一步了解 Scrapy 送請求的流程，合併理解多網頁策略在 Scrapy 上的應用
＊Bonus：反爬蟲類型網站介紹

如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
- 爬蟲程式的限制與可能遭遇的問題
  
  說明實務的爬蟲程式可能會面臨的幾種情況與挑戰
- 突破反爬蟲限制(一)：瀏覽器標頭與基本資訊
  
  利用 HTTP 的標頭檔的設定處理反爬蟲機制
- 突破反爬蟲限制(二)：驗證碼處理
  
  利用視覺辨識的工具處理網頁中的驗證碼
- 突破反爬蟲限制(三)：模擬真實用戶登入授權
  
  利用 Cookie 來模仿網站中的登入行為
- 突破反爬蟲限制(四)：使用代理伺服器與第三方IP
  
  利用代理伺服器來解決 IP 被禁止使用的狀況
＊Bonus：多線程爬蟲與非同步爬蟲

提升爬蟲程式執行效率的進階技巧
- 專業行家必學 - 多線程爬蟲程式教學
  
  利用多線程加速爬蟲的執行時間
- 專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率
  
  利用非同步加速爬蟲的執行時間
- 專家行家必學 - 使用排程即時自動更新資料
  
  利用排程自動化爬蟲更新資料的操作
[Part10] 期末實戰專題

整合第六屆爬蟲馬拉松課程所學，實作一個完整項目
- 期末專題
  
  特定主題網站爬蟲，並將爬取後資料進行加值分析與視覺化

Python網路爬蟲實戰研習馬拉松 (2022新版)

內容簡介

作者介紹

適合人群

你將會學到什麼

購買須知

[Part1] 爬蟲必備 Python 基礎1

網路爬蟲流程介紹

常見公開資料來源介紹

常見資料儲存格式介紹

了解 HTTP 網路基礎知識

Restful API 介紹

網頁架構基礎認知

[Part2] 常見資料結構、檔案存取

Python 資料結構介紹：Tuple / Set / List / Dictionary

Python 實作 CSV 檔案存取與處理

Python 實作 JSON 檔案存取與處理

Python 實作 XML 檔案存取與處理

[Part3] 網路封包知識介紹

網路封包介紹

瀏覽器開發者工具介紹

封包側錄工具介紹：Fiddler

封包發送工具介紹：Postman

[Part4] Python 靜態網頁爬蟲

盤點爬蟲套件及工具

模擬 HTTP 請求：使用 Requests 套件

Requests 練習：使用 Requests + PIL.Image 爬取網頁圖片

網頁結構解析：使用網頁結構定位工具

網頁結構解析：使用 BeautifulSoup 套件操作 CSS Selector

網頁結構解析：使用 lxml 套件操作 XPath

更多的資料爬蟲工具介紹：Grab & PyQuery

使用正規表達式過濾並擷取資料

[Part5] 靜態網頁爬蟲實戰練習

靜態網頁爬蟲練習：ETTODAY

靜態網頁案例：PTT(批踢踢)

靜態網頁案例：Yahoo! 電影網頁

靜態網頁案例：臺灣銀行牌告匯率

靜態網頁案例：Wikipedia

[Part6] 動態爬蟲技術介紹

動態載入網站的爬蟲策略

動態網頁爬蟲起手式：Selenium

Selenium 物件定位 – CSS Selector

Selenium 物件定位 – XPath

Selenium 模擬瀏覽行為

零代碼爬蟲自動化：Playwright

[Part7] 動態網頁爬蟲實戰練習

動態網頁案例：Hahow

動態網頁案例：Linkedin

動態網頁案例：104 人力銀行

動態網頁案例：爬取 Shopee 商品圖片並轉檔

[Part8] 資料視覺化

Matplotlib 及繪圖流程介紹

Matplotlib 繪圖元件介紹

Matplotlib 圖表範例解析

Seaborn：更簡潔的代碼與更美觀的圖表風格

Plotly：更適合儀表板的互動式圖表

[Part9] Scrapy 網站爬蟲框架

Scrapy 爬蟲框架介紹

Scrapy 爬蟲框架 - xpath & 基本爬蟲介紹

Scrapy 爬蟲框架 - 資料輸出與log設定

Scrapy 爬蟲框架：處理資料的 pipeline

Scrapy 大規模多網頁爬蟲框架實作

＊Bonus：反爬蟲類型網站介紹

爬蟲程式的限制與可能遭遇的問題

突破反爬蟲限制(一)： 瀏覽器標頭與基本資訊

突破反爬蟲限制(二)：驗證碼處理

突破反爬蟲限制(三)： 模擬真實用戶登入授權

突破反爬蟲限制(四)：使用代理伺服器與第三方IP

＊Bonus：多線程爬蟲與非同步爬蟲

專業行家必學 - 多線程爬蟲程式教學

專業行家必學 - 使用非同步爬蟲程式提升爬蟲效率

專家行家必學 - 使用排程即時自動更新資料

[Part10] 期末實戰專題

期末專題

[Part1] 爬蟲必備 Python 基礎1

網路爬蟲流程介紹

常見公開資料來源介紹

常見資料儲存格式介紹

了解 HTTP 網路基礎知識

Restful API 介紹

突破反爬蟲限制(一)：瀏覽器標頭與基本資訊

突破反爬蟲限制(三)：模擬真實用戶登入授權

突破反爬蟲限制(一)：瀏覽器標頭與基本資訊

突破反爬蟲限制(三)：模擬真實用戶登入授權