資料處理與特徵工程：透過好的特徵讓您的機器學習模型更順利。

資料處理與特徵工程 - 精選影片1 - 資料科學流程與特徵工程重要性

資料科學流程：很多資料來源蒐集到的資料→Raw Data→Clean and Transform→產生有用特徵→建模→獲取洞見特徵工程重要性： - 「垃圾進，垃圾出」是資料科學典型的名言，代表資料若沒有產生適當的特徵，訓練出的模型也不會有好的結果。 - 特徵會牽涉到領域知識，它可以幫助我們提升模型訓練的成效與洞見。 - 數據與特徵本身就決定了機器學習的上限，而模型就只是逼近該上限而已。特徵工程在資料科學扮演的角色： - 屬於最有創意的一環 - 需要許多腦力激盪 - 最能影響模型效能的過程

資料處理與特徵工程 - 精選影片2 - 數值型與類別型特徵介紹

類別型特徵 - 通常會需要處理 - 模型都要以「數值」型態進行運算，因此模型無法計算類別型特徵 - 維度過高容易產生稀疏性 - 缺失值比較難填補數值型特徵 - 例如：溫度、銷售量 - 比較容易演算法輸入以進行計算 - 遺失值比較容易補值

資料處理與特徵工程 - 精選影片3 - 探索性資料分析（EDA）

EDA 有許多觀看資料分布的方法，包含： 1. 確認遺失值（missing data、NaN）的數量-通常有可能是人為失誤、機器紀錄有問題才會導致沒有資料的情況 2. 每個欄位是否有很多「零」，如有太多零則該欄位對結果的鑑別能力會很低 3. 計算些統計量，像是平均數、標準差、最大值或最小值，可知道每個欄位的資料分布與特性 4. 箱型圖：由最小值、第一分位數、中位數、第三分位數與最大值所組成，可呈現出某個欄位資料的集中趨勢與離群值數量 5. 直方圖：可看出某個欄位資料的分布狀況，諸如大部分數值都趨向數值小的分布等。

資料處理與特徵工程 - 精選影片4 - 重複與單一數值、缺失值處理

重覆與單一數值刪除重複資料：若兩筆或以上資料在所有特徵的內容皆相同，則會刪除重複並僅保留一筆資料特徵欄位若僅包含單一數值或單一類別將不納入建模缺失值處理捨棄補值固定數值平均值：基礎眾數中位數：對於離群值可以避免受其影響用其它行去做預測

資料處理與特徵工程 - 精選影片5 - 標準化、類別型與數值型變數的Encoding

Standardization 提升模型的收斂速度提高模型的精準度類別型 Encoding 標籤編碼（ Label Encoding ）: 把每個類別轉換到某個整數，不會增加新欄位，使用時機通常是該資料中不同類別是有序的。ex. 類別有小孩、年輕人、老人，根據年齡分組，使用標籤編碼表示為 0, 1, 2 是合理的，因為年齡上老人 > 年輕人、年輕人 > 小孩獨熱編碼（One-Hot Encoding）: 為每個類別新增一個欄位，用 0/1 表示是否。使用時機通常是該資料中不同類別是無序的。數值型 Encoding Binarizer：根據閾值將數值型轉變為二進制型，閾值可以進行設定，另外只能對數值型數據進行處理 binning：使用邊界，轉成多個組別

資料處理與特徵工程 - 精選影片6 - 資料處理程式碼範例

資料處理程式碼範例

資料處理與特徵工程 - 精選影片7 - 特徵挑選

Random Forest(隨機森林) 介紹隨機森林是決策樹的組成甚麼決策樹？卡方檢定：自變數與因變數的關係，有關、或者獨立互不影響 Recursive Feature Elimination：通過學習器返回的 coef_ 屬性或者 feature_importances_ 屬性來獲得每個特徵的重要程度。然後，從當前的特徵集合中移除最不重要的特徵。在特徵集合上不斷的重複遞歸這個步驟，直到最終達到所需要的特徵數量爲止

資料處理與特徵工程 - 精選影片8 - 特徵建立、特徵組合、特徵交互

特徵建立（Feature Construction）特徵組合（Feature Combination）特徵交互 (Features Interaction)

資料處理與特徵工程 - 精選影片9 - 特徵工程程式碼範例

特徵工程程式碼範例

資料處理與特徵工程 - 精選影片10 - 案例1-失智症研究

資料處理與特徵工程案例失智症研究

資料處理與特徵工程 - 精選影片11 - 案例2-貨運量分析

資料處理與特徵工程案例貨運量分析

資料處理與特徵工程-程式碼檔案

資料處理與特徵工程-簡報檔