【QA】特徵挑選有哪些常見或典型的方法呢？? - Cupoy

在數值分析過程中，若資料科學家對於正在分析的資料並不了解其領域知識時，會使用與統計相關、機器學習相關...

【QA】特徵挑選有哪些常見或典型的方法呢？?

2021/09/15 下午 08:49

機器學習共學討論版

王健安

觀看數：34

回答數：1

收藏數：0

在數值分析過程中，若資料科學家對於正在分析的資料並不了解其領域知識時，會使用與統計相關、機器學習相關的方法，找出所有特徵中特別重要的特徵，如此不只能夠減少誤差、減少運算時間，也潛在地增加模型效能，那麼常見的特徵挑選方法有哪些呢？

回答列表

2021/09/15 下午 08:49

王健安

贊同數：0

不贊同數：0

留言數：0

特徵挑選的重點是「找到與目標變項最有關聯性、最具影響力」的變項，主要包含三大類：過濾法、包裝法與嵌入法，以下介紹三大類中各個細部的方法。相關係數或假設檢定：當想探討兩個連續變項之間是否線性關係或非線性關係，或是某個連續變項在某個類別變項之間是否有差異時，可以使用Pearson correlation coefficient、ANOVA、Student's t-test等方法，如此便可以一個一個找出哪些變項與目標變項有關係。向前搜索法：透過輪流把特徵放入模型中且個別計算出評估指標，再選擇造成該模型最好的特徵，依據以上步驟，直到模型效能已達何種程度無法再提升，則會產生最終的模型。向後搜索法：一開始先把所有特徵都放入模型中，接著每一輪輪流扣除一個特徵並計算該特徵組合下模型的評估指標，再選擇特徵組合致使模型效能最佳的特徵，直到特徵數剩下多少，或評估指標達到多少時，即可產生最終模型。 4.Lasso/Ridge Regression：在線性迴歸上加入校正項，以解決特徵數大於樣本數所導致的overfitting、共線性等問題，透過排除掉過大係數的特徵，留下真正重要的特徵，讓模型效果變得更好。 Recursive Feature Elimination with Cross-Validation（RFECV）：建立模型並計算模型重要程度後，排除最不重要的數個變項，重複上述幾個步驟後，會留下極有可能為真正重要的特徵，提高模型的精準度。要特別注意的是，以上方法都是針對已知的資料作判斷，不一定真的是重要的特徵，因此若某個特徵在該領域中已經公認是真正重要的特徵，建議要將其保留，或者需要針對截然不同的結果進行探討。參考答案來源： https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/560401/ https://medium.com/ai%E5%8F%8D%E6%96%97%E5%9F%8E/%E7%89%B9%E5%BE%B5%E5%B7%A5%E7%A8%8B%E4%B9%8B%E7%89%B9%E5%BE%B5%E9%81%B8%E6%93%87%E6%A6%82%E5%BF%B5-ca11745db63c https://medium.com/jackys-blog/%E6%80%8E%E9%BA%BC%E5%81%9A%E4%B8%80%E5%80%8B%E5%A5%BD%E7%9A%84%E7%89%B9%E5%BE%B5%E9%81%B8%E6%93%87-%E4%BD%BF%E7%94%A8python-part-1-d698cc15d76e