如何選擇適合的特徵重要性評估方式...?
我目前有個題目需要用幾條肌肉電阻抗參數+基本資料 來回歸出 全身肌肉量 共有96筆資料 問題在於 1. 此回歸任務,在模型選擇的過程中,線性模型(Ridge及SVR)表現都較樹模型(ex. 決策樹與隨機森林)來得好(決策樹的R^2只有0.68, 隨機森林的R^2=0.78),那麼在特徵重要性中,還能用樹模型來評估特徵重要性以便做後續的特徵組合嗎? 還是此處選擇用Permutation Importance會比較好? 2. 後續我直接用Permutation Importance來做特徵重要性評估方式,但發現random state設定不同時,跑出來的特徵重要性(除了第一個與第二個特徵rank不變),其他的特徵就會因為random state設定不同而有變化(變化蠻大的),這樣要如何解釋這樣子的狀況?這樣的Permutation Importance具有參考價值嗎?或者我有哪邊設定錯誤?
回答列表
-
2021/01/28 上午 08:57Matthew Huang贊同數:1不贊同數:0留言數:2
回答1. 請看更下面的補充建議 回答2. 代表rank1和rank2是重要到母湯姆湯的,其他特徵可有可無,效果差沒多少 補充: 我不知道你的資料總共有幾個特徵,但鑒於你的資料只有96筆 線性MODEL(速效,簡潔,線性) a. 如果你是使用MLR,直接窮舉法下去最快 b. 或者用LASSOCV,但可能一個特徵都沒刪掉 c. 採SVR(kernel=linear)+RFE or RidgeCV+RFE,注意RFE只能用在線性模型 d. 上述3個方法都可以直接得到一組特徵組合,而不是ranking,這兩個概念差很大 非線性MODEL(很慢,複雜,非線性) a. 你一定得調參數+挑特徵,這兩個要同步進行,我建議你用啟發式算法,這方面可以看feature selection + wrapper的論文 其他 a. 觀察數據變化起伏,然後假設特徵可以分成P類,接著用聚類算法(k-means/c-means/SOM...)將數據進行運算,完畢後從每一類中分別取一個對目標的相關性最高的特徵作為該類代表(通常用pearson),你有P類,那個你最後挑出來就是P個特徵,這P個特徵就是組合 
-
2021/01/28 下午 03:53張維元 (WeiYuan)贊同數:2不贊同數:0留言數:1
嗨,你好
1. 此回歸任務,在模型選擇的過程中,線性模型(Ridge及SVR)表現都較樹模型(ex. 決策樹與隨機森林)來得好(決策樹的R^2只有0.68, 隨機森林的R^2=0.78),那麼在特徵重要性中,還能用樹模型來評估特徵重要性以便做後續的特徵組合嗎? 還是此處選擇用Permutation Importance會比較好? => 原則上評估的方式採用一致會比較好。 2. 後續我直接用Permutation Importance來做特徵重要性評估方式,但發現random state設定不同時,跑出來的特徵重要性(除了第一個與第二個特徵rank不變),其他的特徵就會因為random state設定不同而有變化(變化蠻大的),這樣要如何解釋這樣子的狀況?這樣的Permutation Importance具有參考價值嗎?或者我有哪邊設定錯誤? => 代表其他欄位並沒有特別好,會受到 random state 就被影響。
嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤我的 Facebook 或 技術部落格 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ 以下分享一些我近期發表跟資料科學有關的文章,歡迎大家持續追蹤: ■ 資料分析工具那麼多,該怎麼選? 🛠️
■ 真.資料團隊與分工
■ 觀察資料的 N 件事 🔖
■ 資料前處理必須要做的事 - 資料清理與型態調整
