logo
Loading...

【QA】特徵挑選有哪些常見或典型的方法呢?? - Cupoy

在數值分析過程中,若資料科學家對於正在分析的資料並不了解其領域知識時,會使用與統計相關、機器學習相關...

【QA】特徵挑選有哪些常見或典型的方法呢??

2021/09/15 下午 08:49
機器學習共學討論版
王健安
觀看數:8
回答數:1
收藏數:0

在數值分析過程中,若資料科學家對於正在分析的資料並不了解其領域知識時,會使用與統計相關、機器學習相關的方法,找出所有特徵中特別重要的特徵,如此不只能夠減少誤差、減少運算時間,也潛在地增加模型效能,那麼常見的特徵挑選方法有哪些呢?

回答列表

  • 2021/09/15 下午 08:49
    王健安
    贊同數:0
    不贊同數:0
    留言數:0

    特徵挑選的重點是「找到與目標變項最有關聯性、最具影響力」的變項, 主要包含三大類:過濾法、包裝法與嵌入法,以下介紹三大類中各個細部的方法。 相關係數或假設檢定:當想探討兩個連續變項之間是否線性關係或非線性關係,或是某個連續變項在某個類別變項之間是否有差異時,可以使用Pearson correlation coefficient、ANOVA、Student's t-test等方法,如此便可以一個一個找出哪些變項與目標變項有關係。 向前搜索法:透過輪流把特徵放入模型中且個別計算出評估指標,再選擇造成該模型最好的特徵,依據以上步驟,直到模型效能已達何種程度無法再提升,則會產生最終的模型。 向後搜索法:一開始先把所有特徵都放入模型中,接著每一輪輪流扣除一個特徵並計算該特徵組合下模型的評估指標,再選擇特徵組合致使模型效能最佳的特徵,直到特徵數剩下多少,或評估指標達到多少時,即可產生最終模型。 4.Lasso/Ridge Regression:在線性迴歸上加入校正項,以解決特徵數大於樣本數所導致的overfitting、共線性等問題,透過排除掉過大係數的特徵,留下真正重要的特徵,讓模型效果變得更好。 Recursive Feature Elimination with Cross-Validation(RFECV):建立模型並計算模型重要程度後,排除最不重要的數個變項,重複上述幾個步驟後,會留下極有可能為真正重要的特徵,提高模型的精準度。 要特別注意的是,以上方法都是針對已知的資料作判斷,不一定真的是重要的特徵,因此若某個特徵在該領域中已經公認是真正重要的特徵,建議要將其保留,或者需要針對截然不同的結果進行探討。 參考答案來源: https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/560401/ https://medium.com/ai%E5%8F%8D%E6%96%97%E5%9F%8E/%E7%89%B9%E5%BE%B5%E5%B7%A5%E7%A8%8B%E4%B9%8B%E7%89%B9%E5%BE%B5%E9%81%B8%E6%93%87%E6%A6%82%E5%BF%B5-ca11745db63c https://medium.com/jackys-blog/%E6%80%8E%E9%BA%BC%E5%81%9A%E4%B8%80%E5%80%8B%E5%A5%BD%E7%9A%84%E7%89%B9%E5%BE%B5%E9%81%B8%E6%93%87-%E4%BD%BF%E7%94%A8python-part-1-d698cc15d76e