logo
Loading...

Imbalance data處理線性迴歸與X變數相關性問題 - Cupoy

1.請問一下現實生活中線性迴歸問題常遇到Imbalance data的問題,資料一定要照refere...

ml100-2,線性迴歸

Imbalance data處理線性迴歸與X變數相關性問題

2019/05/07 上午 00:29
機器學習共學討論版
Patrick Liou
觀看數:3
回答數:2
收藏數:0
ml100-2
線性迴歸

1.請問一下現實生活中線性迴歸問題常遇到Imbalance data的問題,資料一定要照reference 一樣進行處理嗎?

若進行取樣結果是否會失真,以及相關特徵參數有取樣與沒有取樣是否會一致呢?


https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/460131/


https://bigdatafinance.tw/index.php/tech/data-processing/353-2017-03-28-11-36-54


2.尋找特徵因子實際上常遇到X變數間相關性都很高,或者是共變異數很高,這時候需要依照domain去取捨X因子嗎? 或者是全部都進行保留?

EX: X因子共100個  其中1~10 彼此間相關係數>0.9,後續找特徵是有100去找還是可以取91個去找呢?

回答列表

  • 2019/05/07 下午 03:19
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    1.請問一下現實生活中線性迴歸問題常遇到Imbalance data的問題,資料一定要照reference 一樣進行處理嗎?

    若進行取樣結果是否會失真,以及相關特徵參數有取樣與沒有取樣是否會一致呢?


    https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/460131/

    https://bigdatafinance.tw/index.php/tech/data-processing/353-2017-03-28-11-36-54


    => 資料不一定要照 reference 一樣進行處理,網路上有可以找到很多文章或是論文都有對 Imbalance data 提出很多討論與策略,有興趣的話可以再深入研究。像你的 reference 中提到的抽樣就是一種常見的策略。


    取樣結果多少會有一點影響,不過就是在盡可能小的影響下來看趨勢。例如民調就是一個抽樣的結果,不過還是有一定的代表性。如果有興趣的話,可以去找一些「抽樣、信心水準、誤差」相關的文章。

  • 2019/05/07 下午 03:20
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    2.尋找特徵因子實際上常遇到X變數間相關性都很高,或者是共變異數很高,這時候需要依照domain去取捨X因子嗎? 或者是全部都進行保留?EX: X因子共100個  其中1~10 彼此間相關係數>0.9,後續找特徵是有100去找還是可以取91個去找呢?


    => 這比較像是 Feature Selection 的議題,你講的方式都有可能,也沒有一定的標準答案。