Python 網路爬蟲實戰馬拉松
業界專家陪你用40天學會各種網路爬蟲技術
活動介紹
- 機器學習的關鍵資源在於巨量資料,資料蒐集是 AI 應用的第一哩路,在 AI 的訓練模型與 BI 決策過程中更是需要大量的資料集。能善用「網路爬蟲」關鍵技術的人,將能更有效、完整、精確地獲取目標資訊,從網路自動化地收集海量資訊,為後續機器學習的資料集舖路。
- 本課程從網路爬蟲的基礎知識談起,包括靜態網頁爬蟲技術、動能網頁爬蟲技術、網站爬蟲框架,完整涵蓋各種進階爬蟲實用技術。透過大量的程式實作,逐步地為你建構網路爬蟲技術的實戰力,我們邀集了業界網路爬蟲領域的資料工程師,為您解答學習過程中的各種疑難雜症,扎實的學習內容讓您每天只要花一點時間,就可以完整地學會各種網路爬蟲技術。
- 為了讓學員在學習的路上不孤單,除了有專家陪伴外,《Python網路爬蟲實戰馬拉松》的共學社群,可以讓你找到志同道合的學習夥伴,在學習的路上一起努力。無論是線上討論、線下組織讀書會,或是邀請夥伴一起期末專題,都可在共學社群中完成。
- 網路爬蟲充滿許多挑戰與樂趣,我們想和你一起分享社群導向的學習方法,希望透過你的參與,一同優化你的學習曲線,讓你更有效地掌握網路爬蟲的各種技術,累積更多實務學習經驗。
- 大數據資料集是機器學習的關鍵基礎,現今在各種資訊大量充斥於網路,要能有系統地即時蒐集網路上不斷更新的資訊,網路爬蟲的技能是必不可少的,能掌握網路爬蟲技術才能蒐集到需要的資料,把所學的 AI 演算法應用於實際要解決的問題。
- 「 Python網路爬蟲實戰馬拉松 」專家陪跑計畫,整理了 40 個 Python 網路爬蟲的關鍵知識點與各種具有代表性的網站實戰案例,以自主學習加上翻轉教育的方式引導用戶學習,並輔以業界專家協助回答學員在學習過程中的疑難雜症,希望以社群學習的方式加速學員在學習網路爬蟲的速度與快速累積實戰基礎能力。
- 實務經驗傳承
- 網路爬蟲每日練習與期末專題實戰
- 陪跑專家回答問題範圍不侷限於馬拉松課程,學員有與網路爬蟲相關的問題也歡迎加入討論。
- 學習不間斷,一次購買永久學習
- 本活動也很歡迎本身對網路爬蟲有研究熱情的專家們申請加入,一同創造更友善的AI學習環境 (詳情請洽主辦單位)。
- 能使用 Python 獨立完成網路爬蟲程式之撰寫與實務應用
- 掌握網站架構解析與觀察 Http Request / Response解析目標網站的資訊內容
- 能針對靜態網站與動態網站分別實作不同的網路爬蟲策略
- 實際完成真實網站的網路爬蟲挑戰與解決實際遭遇的爬蟲問題
- 使用爬蟲進階技術克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率
- 兼顧每位學員的學習需求
- 學習不間斷,一次購買永久學習
- 共學社團:提供組織線上/線下共學社團功能,幫你輕易找到志同道合的學習夥伴。
- 與專家共學:與領域專家互動,學習該領域最實用的實作知識,幫助您快速累積產業實力。
- 共享知識:在共學社團中你可以分享,或取得其他成員所提供的即時 AI 知識,讓你洞悉產業應用的潮流趨勢。
- 本活動規畫的學習任務挑戰,學員可以將自己完成的程式上傳到 Github 並在共學論壇中分享,其它學員也可以參與論壇中的問題討論,透過專家與學習同儕的群眾智慧,一起克服在學習中的各種疑難雜症。
- 你在爬蟲馬拉松的學習紀錄與專題成果,將上傳至世界最大的開源碼平台 Github,你可以反覆練習與修改上傳的程式碼,提升對各知識點的掌握,而這些紀錄將為你未來的職涯發展與學習加分。
- 透過 Github 提交個人的學習紀錄與專題成果,讓其它人看見你的努力與堅持,未來幫助你在履歷和進修方面加分。
- 超過 5,500 位學員加入 AI 學習馬拉松,掌握去蕪存菁的學習資源,即刻優化個人 AI 的學習曲線。
全新推出機器學習A咖共學計畫-專門為減輕學員負擔所設計
2020下半年,成為機器學習A咖,結合每日、每週與每季的規律學習任務,改善跟不上學習的挫折感,體驗高效雙贏的學習成果!
即日起購買任一馬拉松,限量前100名「免費加贈機器學習A咖共學計畫」!
豐富紮實的社群互動內容,透過你的積極參與和專家陪伴,快來盡情為自己的進步喝采吧。



「 Python網路爬蟲實戰馬拉松 」專家陪跑計畫,由專家群規畫完整的關鍵知識點,以每天 1 小時的學習節奏為學員開啟知識探索地圖,加速你的基礎學習進度。
學員們在課程中所遭遇的學習問題,專家都會盡力協助解答,並分享業界實務經驗。
本課程設置每日的實作練習和期末專題挑戰,由專家群特別精心規劃的程式實作專題,讓你結合先前所學的知識點,挑戰基礎與進階的專題目標,大幅增進應用的技巧。透過嘗試與修正的過程,並隨時與專家討論與詢問,進而完整地將知識與實作結合。
本活動除了學習任務挑戰,學員在參與本活動後可永久使用本活動 VIP 共學論壇,與專家和同儕自主學習討論。討論不侷限於學習任務,只要與論壇主題相符即可自由交流。




由於每位學員的背景和需求不同,在學習過程中遭遇的問題也有所差異。為了讓學員們能順利學習,掌握關鍵知識點,Cupoy 的 AI 專家群會盡力回答學員的提問,從主題觀念、request使用、網頁爬蟲實際案例教學、解題方法、文章拆解等,甚至實務開發的問題,專家都會盡力給你最適合的建議與解答。
本活動除了學習任務挑戰,學員在參與本活動後可永久使用本活動 VIP 共學論壇,與專家和同儕自主學習討論。討論不侷限於學習任務,只要與論壇主題相符即可自由交流。





活動資訊
- 活動開始時間
- 學習保證
- 精彩教材試閱
- 活動進度
- 學習方式
- 登入帳號
- 參加資格
- 電腦設備
- 完成條件
- 著作權
網路爬蟲是 AI 應用的第一哩路,從基礎自學 Python 範例、套件、selenium等網頁教學,到熟悉各項進階爬蟲實用技術與程式實作。加入 Cupoy 共學社群,自學也能不孤單,隨時與 AI 業界專家深入資料分析精髓。
永久觀看,報名後您將會收到主辦單位寄送的活動通知信與會員啟動信,填寫的電子信箱將預設為您的課程登入帳號,請參考通知信件說明啟動活動權限,即可開始學習。
本活動的學員能永久使用Cupoy的VIP共學社群服務(內含:每日領域新知 / 專家問答服務),隨時與專家切磋討論AI問題,自由交流與觀摩其他學員作品。目前學員近4,000人, AI 相關累積問答數已超過 2,200 則。
💁♂ 爬蟲基礎介紹-資料來源與檔案存取
參加者可依照自己的學習狀況提交進度,毋須擔心時間過於緊湊,只要在開跑天數後一年內完成,都能獲取完賽證明。
1. 本活動以翻轉教育的方式為宗旨,參加者至活動官網上面閱讀教材、觀看題目,執行範例程式或作答思考題,最後完成作業,在 VIP 專屬問答社區與專家互動交流,解題遇到困難可向專家直接提問,與同儕互相討論學習,活動結束後,您依然可以使用該問答社群與專家交流,詢問與本活動相關的其它實務面所遇到的問題。
2. 提供課程內容、範例程式碼與作業練習、期末專題、多元補充與推薦教材(影音/文章)等,方便您反覆溫習。
3. 活動進行方式採線上進行,不會有實體授課,只要有網路的地方您都可以參加百日馬拉松的活動,也歡迎海外的朋友來報名,教材內容以繁體撰寫,某些推薦閱讀會提供英文網站與資源。
我們將預設您提供的電子信箱為活動的登入帳號,報名團體票券的朋友將以各別提供的電子信箱登入,每個人都會有各自登入帳號。
課程範例程式碼以 Python 語法為主。建議您在正式開始前能具備 Python 或其他程式語言初級以上的能力,或預習完成下列 Python 影片。
1. 莫煩 Python3 基礎學 學習連結
2.彭彭老師 python 入門教學 學習連結
Windows/Mac/Linux系統,64位元版本
1. 完成全部題目
2. 參與並完成期末專題指定目標,將頒發完賽證書。
1. 參賽者提交作業之著作權,歸屬參加者個人所有,但主辦單位共同擁有為推廣活動及教育目的重製、下載及公開展示等權利。
2. 主辦單位活動題目內容之文字與圖檔、資料或原有衍生之智慧財產權,隸屬於主辦單位所有。
學習地圖
- 本活動從爬蟲與網頁的基礎知識、靜態網頁與動態網頁的爬蟲技術,到Scrapy網站等級爬蟲框架與各種進階的爬蟲與反爬蟲技術,最後是整合所學的期末實務專題,共包括6大學習里程碑,能夠完成大部分學習任務的學員,我們相信你已經能掌握Python網路爬蟲的重要基礎知識與實戰能力。
◤ 課程實作專題 ◢
1⃣ETTODAY 靜態爬蟲實作練習
2⃣PTT(批踢踢)網路爬蟲實作練習
3⃣Wiki爬蟲實作練習
4⃣Yahoo! 電影網頁實作練習
5⃣金融資訊網頁爬蟲實作練習
6⃣Hahow網站爬蟲實作練習
7⃣東森新聞雲網站爬蟲實作練習
8⃣104人力銀行網站爬蟲實作練習
9⃣期末綜合爬蟲實戰練習
◤ 6大學習里程碑 ◢
1⃣爬蟲基礎知識
介紹基本的Http網路通訊原理與HTML內容格式,搭配程式自動化收集資料
2⃣靜態網頁爬蟲技術
拆解靜態網頁的規格與原理,使用Python爬蟲解析HTML / CSS / Javascript並收集靜態網頁中特定的資料
3⃣動態網頁爬蟲技術
以使用Selenium + BeautifulSoup 模擬瀏覽器執行動態網頁,解析收集各種動態網頁生成的特定資料,並學習用瀏灠器開發者工具解析網頁內容的特徵
4⃣Scrapy 網站爬蟲框架
面對網站級別的多網頁爬蟲需求,學習用Scrapy建立爬蟲策略與爬蟲框架
5⃣進階爬蟲技術
有許多網站並非完全公開,本章將教你如何使用爬蟲進階技巧克服反爬蟲網站、自動登入、驗證碼等障礙和如何加速大量網頁的爬蟲執行效率。
6⃣期末實戰專題
由專家群設計針對業界實務需求為學員設計結訓專題,學員可將活動中學習的各種知識點應用於結訓專題,開發可應用於未來實務需要的爬蟲技術,在開發過程中遭遇問題時,可以詢問專家並尋求解答與討論,最終希望由學員親手完成該專題進而掌握知識原理與實作。
陪跑教練
-
張維元
工研院 AI 課程講師與網站開發全端工程師
清大資工碩士畢業,目前在多間新創公司擔任資料工程師與系統架構規劃,擁有多次國內大型技術會議講者經驗,同時也是程式社群 JSDC 核心成員及 ST2DE 計畫發起人。 擅長網站開發與資料科學的雙棲工程師,熟悉的語言是 Python 跟 JavaScript,喜歡用程式與技術的思維解決問題。主要研究領域為巨量資料之實務分析應用,略懂一點網站前後端開發技術,平時熱愛參與技術社群聚會及貢獻開源程式的樂趣。
-
楊鎮銘
威摩科技 資料科學家
曾負責開發深度學習在生物領域的應用,如生物表徵與生態的關係,生物移動軌跡追蹤,軌跡行為分類等,協助生物學家在研究上可以加速蒐集資料的過程。擔任過多場 Python tutorial 與爬蟲實作講師,現為新創科技公司資料科學家,協助公司從數據中做商業決策。
-
張齊文 Kevin
美商鳳凰科技 資深工程師
台灣科技大學電子所畢業,從事韌體規劃工作已有十多年經驗,曾參與大型伺服器、個人電腦及平板電腦的韌體規劃專案。對於電腦架構、硬體系統架設及電腦 BIOS 的各項設定皆有深入了解。
活動準備
-
使用環境軟體安裝
- 一台電腦 PC 或筆電
- 作業系統 Windows / Mac / Linux 皆可
- 電腦需要安裝 Anaconda 平台上的軟體Jupyter Notebook
-
Github 帳號申請
- 至 Github 網站註冊
-
獲取 Cupoy 訂閱服務
- 至 Cupoy 網站註冊會員
- 訂閱 AI 知識特助服務
活動流程
常見問題
-
課程是線上影音教學嗎?是在什麼平台呢,1天1小時的教材以及社團能自由提問嗎?
課程採翻轉傳統上課模式,在共學社群中尋找志同道合夥伴,以自主練習與專家協助獲得最大學習成效,搭配程式碼實作練習與期末專題,讓你更有系統地掌握AI知識。遇到問題隨時可向專家提問,Cupoy良好的討論與互動氛圍,讓每位學員的問題都得到重視與完善解答。
-
無法每天花一小時上課,可以事後花時間上課學習嗎,作業有提交時間限制嗎?
參加者至活動官網上閱讀教材、觀看題目、提交作業,在 VIP 專屬問答社群與專家互動交流,解題遇到困難可向專家直接提問,與同儕互相討論學習,您可以依照個人的時間規劃提交進度。
-
請問是要用Python作答,還是可以自選語言完成作業?
環境建置會以Anaconda與python為主,但是學員可以自行決定使用擅長或者喜歡的程式語言完成作業。
-
關於深度學習計算資源,著重在用CPU簡單體驗,還是使用Colab或其他GPU的資源?
後半段深度學習的部分,考量到學員們目前的設備,我們活動中選用的資料集都是以CPU可以正常執行的,部分資料集如果沒有GPU可能會跑比較久但一定跑的完。主要還是希望學員們能先了解深度學習的基礎知識以及簡單的深度學習模型建立。至於未來若籌畫其它進階的百日馬拉松活動,屆時我們會視需求另行規畫雲端的GPU資源申請或學員自備GPU運算環境。
-
作業繳交後,會有人批閱或給予建議嗎?
作業繳交後會提供範例解答,學員們若看完發現仍不理解,或是想進一步了解,都可以透過問答平台提問,會有專門的陪跑教練與專家回答,透過問答過程中掌握核心,善用群眾智慧克服學習中的各種疑難雜症。
-
如何使用兌換碼領取課程?
已註冊 cupoy 帳號的學員,登入後將兌換碼複製貼上我有兌換碼欄位並點選使用,即可馬上領取課程。尚未註冊帳號的學員,請先註冊 cupoy 帳號後進行兌換。
-
1. 爬蟲基礎知識
介紹幾本的網路溝通原理和資料來源與格式,搭配程式自動化的收集資料
-
D1
資料來源與檔案存取
介紹常見的資料提供管道與 資料取得方式,並且利用 Python 進行存取
-
D2
實作:Python 下載CSV檔案與解析
示範存取、解析一個 CSV 格式的檔案
-
D3
實作:Python 下載XML檔案與解析
示範存取、解析一個 XML 格式的檔案
-
D4
HTTP Server-Client 架構說明與 利用 Python 存取 API
淺談 HTTP 網站架構與運作方式, 如何利用 Python 程式存取來自 HTTP API 的資源
-
D5
實作 Day:API 資料串接 - 基本 API + JSON
示範存取、解析一個 JSON 格式的 API 資源
-
D6
實作 Day:API 資料串接 - Headers
如何在 API 存取中加上標頭檔
-
-
2. 靜態網頁爬蟲技術
拆解靜態網頁的原理,解析並收集資料
-
D7
HTTP 靜態網頁架構說明與淺談HTML / CSS / JavaScript
淺談 HTTP 網站架構與運作方式與 網頁基礎結構:HTML、CSS、JavaScript
-
D8
靜態網頁的資料爬蟲策略
解析靜態網站的運算方式與爬蟲的實作策略
-
D9
圖片下載
了解除了文字以外的圖片爬蟲技術
-
D10
PyQuery/grab
介紹更多的資料爬蟲工具
-
D11
Regular expression
學習利用正規表達式,過濾及擷取資料
-
D12
實作 Day:ETTODAY 靜態爬蟲實作練習
以 ETTODAY 為例示範如何完成網頁爬蟲
-
D13
實作 Day:PTT(批踢踢)網路爬蟲實作練習
以 PTT 為例示範如何完成網頁爬蟲
-
D14
實作 Day:Yahoo! 電影網頁爬蟲實作練習
以YAHOO電影為例示範如何爬取電影資訊
-
D15
實作 Day:金融資訊網頁爬蟲實作練習
以台銀網站為例示範如何爬取資訊並整理資料
-
D16
實作 Day:Wiki的爬蟲實作練習
練習爬取Wikipedia的資料
-
-
3. 動態網頁爬蟲技術
了解動態網頁的原理,模擬資料取得過程
-
D17
HTTP 動態網頁架構說明與非同步取得資料
解析動態網站的運算方式與爬蟲的實作策略
-
D18
瀏覽器開發者工具介紹
介紹瀏覽器開發工具
-
D19
動態網頁爬蟲 - 使用Selenium + BeautifulSoup 模擬瀏覽器執行
示範如何使用瀏覽器模擬工具實作動態網頁爬蟲
-
D20
動態網頁爬蟲 - 利用開發者工具,觀察模擬 API 存取
示範如何使用瀏覽器開發工具實作動態網頁爬蟲
-
D21
實作 Day:ETTODAY 動態爬蟲實作練習
以 ETTODAY 為例示範如何完成網頁爬蟲
-
D22
實作 Day:Hahow爬蟲實作練習
以 Hahow課程網站為例示範如何完成網頁爬蟲
-
D23
實作 Day:東森新聞雲網站爬蟲實作練習
以東森新聞為例示範如何完成網頁爬蟲
-
D24
實作 Day:104人力銀行網站爬蟲實作練習
以104人力銀行網站為例示範如何完成網頁爬蟲
-
-
4. Scrapy 網站爬蟲框架
透過框架以專案角度學習非同步爬蟲
-
5. 進階爬蟲技術
如何克服反制爬蟲的網站、提升爬蟲的執行效率與其他進階爬蟲技巧
-
6. 期末實戰專題
整合課程內所學並實作一個項目