數值與數值組合,若只是將自變數加減一個常數有意義嗎
2019/05/22 下午 04:15
機器學習共學討論版
Angus An
觀看數:10
回答數:2
收藏數:0
ml100-2
ml100-2-d26
比如說像是要預測儀器可能故障的機率
x1 為儀器使用了幾年
如果使用年限為30年,因此創造新的屬性為 x2 = 30-x1 做為剩餘時間
想請這樣的特徵工程是有意義的嗎
還是大部分演算法看到 x1 的分佈就可以自行推估出 x2
謝謝
回答列表
-
2019/05/22 下午 04:33張維元 (WeiYuan)贊同數:2不贊同數:0留言數:0
我覺得會有意義。雖然演算法也可能會推出來,不過因為後續還可能會「標準化」、「特徵轉換」之類的,有時候有些操作是不容易判斷影響程度有多大。
-
2019/05/23 上午 10:33Jimmy贊同數:1不贊同數:0留言數:1
Hi Angus!
以最常見用的 tree-based 模型來說,這種線性的特徵工程其實是沒有任何意義的,後面的課程我們會提到,在使用 Random Forest 的模型,若資料中有兩個一模一樣的特徵,那這樣特徵的重要性排序會是如何?我先給出答案,特徵的重要性很有可能會被均分,一個原本單一特徵的重要性可以是 0.8 ,會被拆分為 0.4 與 0.4,可能讓你誤以為這個特徵沒有很重要。
所以如果要做特徵工程,建議還是做一些非線性的轉換,對結果來說才會有幫助,後續課程會接觸到很多練習用的資料集,建議你可以驗證看看是不是真的會有這樣的行為喔!