logo
Loading...

特徵工程方法問題 - Cupoy

在教材當中有許多特徵工程的方法去使得資料更符合能夠放進模型的樣子,但似乎許多方法都會使得資料的意義好...

ml100-2

特徵工程方法問題

2019/05/24 00:07 下午
機器學習共學討論版
謝文瑜
觀看數:3
回答數:2
收藏數:0
ml100-2

在教材當中有許多特徵工程的方法去使得資料更符合能夠放進模型的樣子,但似乎許多方法都會使得資料的意義好像被改變了。

我能夠理解的部分是,例如標準化的方法,所有資料都是以相對,公平的方式在轉換。

但我有些無法理解的部分為,例如:

1. 處理缺值的單元就提到,可以用中位數或者眾數填補。但事實上真實的空缺資料很可能不是我們填上去的嗎? 

2.去除偏態的單元也提到,開根號乘以10的方法,那樣的作法會使得資料更接近常態分佈,但這麼一來資料的分布不就已經失真了嗎?


想請問老師們這樣會不會出現有一些潛在的問題呢? 或者說我有理解錯誤的地方。

謝謝!