Imbalance data處理線性迴歸與X變數相關性問題
1.請問一下現實生活中線性迴歸問題常遇到Imbalance data的問題,資料一定要照reference 一樣進行處理嗎?
若進行取樣結果是否會失真,以及相關特徵參數有取樣與沒有取樣是否會一致呢?
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/460131/
https://bigdatafinance.tw/index.php/tech/data-processing/353-2017-03-28-11-36-54
2.尋找特徵因子實際上常遇到X變數間相關性都很高,或者是共變異數很高,這時候需要依照domain去取捨X因子嗎? 或者是全部都進行保留?
EX: X因子共100個 其中1~10 彼此間相關係數>0.9,後續找特徵是有100去找還是可以取91個去找呢?
回答列表
-
2019/05/07 下午 03:19張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
1.請問一下現實生活中線性迴歸問題常遇到Imbalance data的問題,資料一定要照reference 一樣進行處理嗎?
若進行取樣結果是否會失真,以及相關特徵參數有取樣與沒有取樣是否會一致呢?
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/460131/
https://bigdatafinance.tw/index.php/tech/data-processing/353-2017-03-28-11-36-54
=> 資料不一定要照 reference 一樣進行處理,網路上有可以找到很多文章或是論文都有對 Imbalance data 提出很多討論與策略,有興趣的話可以再深入研究。像你的 reference 中提到的抽樣就是一種常見的策略。
取樣結果多少會有一點影響,不過就是在盡可能小的影響下來看趨勢。例如民調就是一個抽樣的結果,不過還是有一定的代表性。如果有興趣的話,可以去找一些「抽樣、信心水準、誤差」相關的文章。
-
2019/05/07 下午 03:20張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
2.尋找特徵因子實際上常遇到X變數間相關性都很高,或者是共變異數很高,這時候需要依照domain去取捨X因子嗎? 或者是全部都進行保留?EX: X因子共100個 其中1~10 彼此間相關係數>0.9,後續找特徵是有100去找還是可以取91個去找呢?
=> 這比較像是 Feature Selection 的議題,你講的方式都有可能,也沒有一定的標準答案。