logo
Loading...

去偏態的問題 - Cupoy

在進行模型(羅吉斯回歸)訓練的時候,由於有好幾筆數值資料都呈現偏態的情況,因此將數個明顯偏態的特徵,...

ml100-2,ml100-2-d06

去偏態的問題

2019/10/08 下午 04:17
機器學習共學討論版
doris
觀看數:21
回答數:2
收藏數:0
ml100-2
ml100-2-d06

在進行模型(羅吉斯回歸)訓練的時候,由於有好幾筆數值資料都呈現偏態的情況,因此將數個明顯偏態的特徵,用 box cox 進行去偏態處理,結果outpout出來的tatgert的比率都是0.5,衡量結果比沒有去偏態還差。原則上去偏態不是應該提升訓練的結果嗎?怎麼會有這種大大降低訓練結果的狀況?

回答列表

  • 2019/10/09 下午 00:09
    陳明佑 (Ming You Chen)
    贊同數:1
    不贊同數:0
    留言數:1

    這種情況可能發生在 : 目標資料對於較大值敏感的時候

    比方說特定的消費資料 (奢侈品/聖誕節...之類的)

    也有可能原本的資料就被調整過 (ex : 競賽中的消費金額)

    這時候, 如果設立門檻特徵 (ex: df['is_over'] = df['some_column']>100), 就可能比較有效


    因此, 我們教材的目的,  並不是告訴同學哪個特徵工程/前處理方式"一定"特別好

    而是展示不同的處理方式, 讓同學理解到有哪些作法可用

    至於特徵本身該挑哪些, 主要取決於你的資料特性而定, 不是永遠都適用的

  • 2019/10/10 上午 01:34
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    想問問 @明佑 專家的意見,所以原問題中「去偏態不是應該提升訓練的結果」這句話應該是不一定的嗎?那請問進行去偏態的目的是什麼?