去偏態的問題
2019/10/08 下午 04:17
機器學習共學討論版
doris
觀看數:21
回答數:2
收藏數:0
ml100-2
ml100-2-d06
在進行模型(羅吉斯回歸)訓練的時候,由於有好幾筆數值資料都呈現偏態的情況,因此將數個明顯偏態的特徵,用 box cox 進行去偏態處理,結果outpout出來的tatgert的比率都是0.5,衡量結果比沒有去偏態還差。原則上去偏態不是應該提升訓練的結果嗎?怎麼會有這種大大降低訓練結果的狀況?
回答列表
-
2019/10/09 下午 00:09陳明佑 (Ming You Chen)贊同數:1不贊同數:0留言數:1
這種情況可能發生在 : 目標資料對於較大值敏感的時候
比方說特定的消費資料 (奢侈品/聖誕節...之類的)
也有可能原本的資料就被調整過 (ex : 競賽中的消費金額)
這時候, 如果設立門檻特徵 (ex: df['is_over'] = df['some_column']>100), 就可能比較有效
因此, 我們教材的目的, 並不是告訴同學哪個特徵工程/前處理方式"一定"特別好
而是展示不同的處理方式, 讓同學理解到有哪些作法可用
至於特徵本身該挑哪些, 主要取決於你的資料特性而定, 不是永遠都適用的
-
2019/10/10 上午 01:34張維元 (WeiYuan)贊同數:0不贊同數:0留言數:0
想問問 @明佑 專家的意見,所以原問題中「去偏態不是應該提升訓練的結果」這句話應該是不一定的嗎?那請問進行去偏態的目的是什麼?